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推荐 序 


在 流行 的 编程 语言 中 ，Ruby 比较 男 类 ， 这 是 因为 大 多 数 编程 语言 的 首 
要 着 眼 点 在 于 为 解决 特定 的 问题 领域 而 设计 语言 ， 而 Ruby 的 首要 着 
腿 点 在 于 “人 性 化 ”>， 让 程序 员 充 分 享受 编程 的 乐趣 。 由 于 组 织 国内 的 
Ruby 会 议 ， 我 兽 经 两 次 邀请 松本 行 弘 来 中 国 。 他 是 一 位 性 格 平和 、 对 
生活 充满 热爱 的 人 ， 在 演讲 中 也 一 再 传递 code for fun 的 宗旨 ， 即 编程 
语言 不 应 该 是 冷冰冰 地 给 机 器 阅读 和 执行 的 指令 ， 而 应 该 是 让 程序 员 
编程 的 工作 过 程 变 成 一 种 充满 乐趣 和 至 受 的 过 程 。 而 且 ， 松 本 先生 发 
明 Ruby 语言 也 十 因为 他 对 创造 一 种 人 性 化 的 面 癌 对 象 脚本 语言 的 热 
爱 。 


程序 员 社 区 经 常 拿 另 外 一 个 主流 的 面向 对 象 脚本 语言 Python 来 和 
Ruby 做 对 比 。 从 全 球 范 围 来 看 ，Python 的 社区 更 大 ， 应 用 更 广泛 ， 但 
Ruby 的 语法 相对 Python 来 说 更 强大 和 宽松 ， 给 程序 员 发 挥 的 自由 度 
更 大 ， 可 以 基于 Ruby 创建 各 个 领域 的 DSL， 比 方 说 Ruby on Rails 束 
是 一 个 基于 Ruby 的 Web 快速 开发 领域 的 DSL。 


总 之 ，Ruby 语言 的 这 种 “人 性 化 > 以 及 给 程序 员 很 大 编程 自由 度 的 气质 
黄 定 了 整个 Ruby 社区 的 气质 : 热爱 生活 的 程序 员 ， 追 求 编程 的 自由 
度 ， 市 点 非 主流 的 极 客 色彩 。 也 正 因为 如 此 ，Ruby 和 基于 Ruby 的 
Rails 得 到 了 人 硅谷 许 许多 多 创业 公司 的 青睐 ， 有 名 者 如 Twitter、 
Groupon、Hulu、github 等 。 而 这 种 气质 也 很 鲜明 地 体现 在 Rails 框 染 
的 创建 者 David Heinemeier Hansson 及 其 所 在 的 37signals 公司 身上。 


37signals 的 20 多 位 员工 过 布 全 球 ， 每 周 只 上 班 四 天 ，David 
Heinemeier Hansson 本 人 同时 还 是 一 位 保时捷 车 队 的 职业 赛车 手 。 


当然 ，Ruby 并 非 只 在 非 主 流程 序 员 社 区 中 流行 ， 随 着 全 球 IT 产业 进 
入 云 计算 时 代 ，Ruby 也 发 挥 着 越 来 越 大 的 作用 。 著 名 的 SAAS 矿 商 
salesforce 在 2010 年 底 以 2.1 亿美 元 收购 了 PAAS 厂商 Heroku， 并 且 
在 2011 年 7 月 聘请 松本 行 弘 担任 Heroku 首席 架构 师 ， 开 拓 Ruby 在 
云 计 算 领 域 的 应 用 。Heroku 本 号 就 是 一 个 完全 采用 Ruby 架构 的 
PAAS 平台 ， 同 样 支持 Ruby 的 PAAS 厂商 还 有 EngineYard、VMware 
0 ，Ruby 必然 在 未 来 得 到 越 来 越 广泛 的 
WY. O 


我 之 前 阅读 了 本 书 的 部 分 章节 ， 这 本 书 实 际 上 是 松本 行 弘 从 一 个 编程 
语言 设计 者 的 角度 去 看 待 各 种 各 样 的 流行 编程 语言 ， 分 析 它 们 有 哪些 
特点 ， 以 及 Ruby 编程 语言 是 如 何 取 舍 的 。Ruby 编程 语言 的 设计 本 身 
大 量 地 参考 了 一 个 更 古老 而 著名 的 面向 对 象 编程 方法 的 开山 之 作 
Smalltalk， 而 且 从 函数 式 编 程 语言 虹 祖 LISP“ 偷 师 学 艺 ” 了 不 少 好 东 
西 。 程 序 员 社 区 有 个 著名 的 说 法 : 任何 现代 编程 语言 都 脱胎 于 
Smalltalk 和 LISP， 都 与 这 两 个 编程 语言 有 着 似曾相识 的 特性 ， 目 
Smalltalk 和 LISP 诞生 以 来 ， 编 程 语 言 领域 可 谓 大 势 已 定 了 。 因 此 ， 
集 这 两 种 编程 语言 诸多 特点 于 一 身 的 Ruby 语言 很 值得 编程 爱好 者 去 
学 习 ， 而 看 看 Ruby 设计 师 是 怎么 设计 Ruby 语言 的 ， 则 可 以 让 你 高 屋 
建 领 地 理解 一 些 主流 的 编程 语言 。 


范 凯 
ITeye 网 站 创始 人 ，CSDN 产品 总 监 
(图 灵 公 司 感 谢 李 琳 戏 、 常 新 居士 等 对 本 次 重印 勘误 工作 的 贡献 。) 


中 文 版 序 


从 年 轻 的 时 候 开 始 ， 我 束 对 编程 语言 有 着 极 为 浓厚 的 兴趣 。 比 起 “使 用 
计算 机 干什么 ”这 一 问题 ， 我 总 是 一 门 心思 想 着 “如 何 将 目 己 的 意图 传 
达 给 计算 机 ”。 从 这 个 意义 上 说 ， 我 认为 自己 是 个 “怪人 ”。 但 是 ， 想 选 


择 一 个 能 让 目 己 的 工作 变 得 轻松 的 编程 语言 ， 想 编写 一 种 让 人 用 起 来 
感到 快乐 的 编程 语言 ， 一 直 古 我 梦 续 以 求 的 ， 这 种 担 切 的 心情 仿 怕 不 
输 于 任何 人 。 虽 说 是 有 点 目 卖 目 合 ， 但 是 Ruby 确实 给 我 市 来 了 “ 快 
乐 ”， 这 一 结果 让 我 感到 很 满足 。 


让 我 感到 惊奇 的 是 ， 有 很 多 人 ， 包 括 那些 没有 我 这 么 “ 怪 ?" 的 人 ， 都 对 
这 种 快乐 有 着 共鸣 。Ruby 自 1995 年 在 互联 网 上 公布 以 来 ， 着 实 让 世 
界 各 地 的 程序 员 都 认识 了 它 ， 共 享 着 这 种 快乐 ， 提 高 了 软件 开发 的 生 
产 力 。 完 全 出 乎 我 意料 的 是 ， 世 界 各 地 的 人 人， 不管 是 东方 还 是 西方 ， 
都 极为 欣赏 Ruby。 在 刚 开 始 开 发 Ruby 的 时 候 ， 我 想 都 没有 想到 过 有 
， 程序 员 的 感觉 会 超越 人 种 、 国 籍 、 文 化 ， 有 如 此 之 多 的 
六 二 村 


现在 ， 为 世界 各 地 的 程序 员 所 广泛 接受 的 Ruby， 正 市 来 一 种 新 的 文 
化 。 已 经 有 越 来 越 多 的 开发 人 员 ， 在 实践 中 果敢 地 施行 着 Ruby 语言 
及 其 社区 所 追求 的 “对 高 生产 力 的 妃 求 "*、“ 富 有 柔性 的 软件 开发 "、“ 对 
程序 员 人 性 的 苯 重 *”、“ 鼓 起 勇气 挑战 新 拉 术 ”等 原则 。 在 Ruby 以 前 ， 
这 些 想法 也 都 很 好 ， 却 一 直 实 践 不 起 来 。 我 相信 ，Ruby 的 音 越 之 处 ， 
不 仅 在 于 语言 能 力 ， 而 且 更 重要 的 是 引领 了 这 种 文化 的 践 行 。 


本 书 在 解说 编程 中 的 技术 与 原则 时 ， 不 局 限于 表面 现象 ， 而 古 努 力 挖 
掘 其 历史 根源 ， 揭 示 其 本 质 。 虽 然 很 多 章节 都 以 Ruby 为 题材 ， 但 这 
些 原则 对 于 Ruby 以 外 的 语言 也 行 之 有 效 。 衷 心 布 望 大 家 能 够 实践 本 
书 中 所 讲述 的 各 项 原则 ， 成 为 一 个 更 好 的 开发 人 员 。 


松本 行 弘 
2011 年 4 月 18 日 


前 谨 


本 书 的 目的 不 是 深入 讲解 哪 种 特定 的 技术 ， 也 没有 全 面 讨 论 我 所 开发 
的 编程 语言 Ruby， 而 是 从 全 局 角度 考察 了 与 编程 相关 的 各 种 技术 。 读 
者 干 万 不 要 以 为 拿 着 这 本 书 ， 束 可 以 按 图 索 强 地 解决 实际 问题 了 。 实 


际 上 ， 最 好 把 它 看 成 是 一 幅 粗 略 勾勒 出 了 编程 世界 诸 要 素 之 间 关 系 
的 “世界 地 图 ”。 


每 种 技术 、 思 想 都 有 其 特定 的 目的 、 洲 源 和 发 展 进步 的 过 程 。 本 书 试 
图 换 一 个 角度 重新 考察 各 种 技术 。 如 果 你 看 过 后 能 够 感觉 到 " 呵 ， 原 来 
是 这 样 的 呀 ! ”或 者 “ 噢 ， 原 来 这 个 技术 的 立足 点 在 这 里 呀 1 "那么 我 就 
深 感 次 慰 了 。 我 的 愿望 就 是 这 些 知识 能 够 激发 读者 学 习 新 技术 的 求知 


AN 
和 欲 。 


本 书 的 第 2 章 到 第 14 章 ， 是 在 《日 经 Linux》 杂志 于 2005 年 5 月 到 
2009 年 4 月 连载 的 “松本 编程 模式 讲坛 > 基础 上 编辑 修改 而 成 的 。 但 实 
际 上 连载 与 最 开始 的 设想 并 不 一 致 ， 真 正 涉 及 “模式 ”的 内 容 其 实 不 
0 
没有 错 。 


除了 连载 的 内 容 之 外 ， 本 书 还 记录 了 我 对 编程 问题 的 新 思考 和 新 看 
法 。 特 别 是 第 1 革 “ 我 为 什么 开发 Ruby”， 针 对 “为 什么 是 Ruby” 这 一 
PR 0 
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对 于 连载 的 内 容 ， 因 为 要 出 成 一 本 书 ， 除 修改 了 明显 的 错误 和 不 合 时 
代 的 部 分 内 容 之 外 ， 我 力求 每 一 章 都 独 成 一 体 、 内 容 完整 ， 同 时 也 保 
留 了 连载 时 的 风 有 狗 。 通 读 全 书 ， 读 者 也 许 会 感觉 到 有 些 话题 或 讲解 是 
重复 的 ， 这 一 反 僻 请 原 这 。 


我 的 本 职工 作 是 程序 员 ， 不 能 集中 大 段 时 间 去 写 书 ， 不 过 无 论 如 何 最 
后 总 算是 赶 出 来 了 。 非 党 感谢 我 的 家 人 ， 她 们 在 这 么 长 时 间 里 宽容 着 
我 这 个 情绪 不 稳 的 丈夫 和 父亲 。 


稿子 写 完 了 ， 书 也 出 来 了 ， 想 着 总 算 告 一 段落 了 吧 ， 而 《日 经 
Linux》 义 要 开始 连载 “松本 行 弘 技术 剂 析 ” 了 ， 念 怕 还 要 继续 让 家 里 人 


劳 心 。 


松本 行 弘 
2009 年 4 月 于 樱花 季节 过 后 的 松江 


第 1 章 我 为 什么 开发 Ruby 
1.1 我 为 什么 开发 Ruby 


Ruby 是 起 源 于 日 本 的 编程 语言 。 近 年 来 ， 特 别 是 因为 其 在 Web 开发 
方面 的 效率 很 高 ，Ruby 引起 了 全 世界 的 关注 ， 它 的 应 用 范围 也 扩展 到 
了 很 多 企业 领域 。 


作为 一 门 编程 语言 ，Ruby 正在 被 越 来 越 多 的 人 所 了 解 ， 而 作为 一 介 工 
程 师 的 我 ， 松 本 行 弘 ， 刚 开始 的 时 候 并 没有 想 过 “让 全 世界 的 人 都 来 用 
它 ” 或 者 “这 下 子 可 以 大 赚 一 笔 了 ”， 一 个 仅仅 是 从 兴趣 开始 的 项 目 却 在 
不 知 不 觉 中 发 展 成 了 如 今 的 样子 。 

当然 了 ， 那 时 开发 Ruby 并 不 是 我 的 本 职工 作 ， 纯 属 个 人 兴趣 ， 我 是 
把 它 作 为 一 个 自由 软件 来 开发 的 。 但 是 世事 弄 人 人， 现在 开发 Ruby 竞 
然 变 成 我 的 本 职工 作 了 ， 想 想 也 有 些 不 可 思议 。 

“你 为 什么 开发 Ruby? ”每 当 有 人 这 样 问 我 的 上 时候， 我 认为 最 合适 的 回 
答应 该 就 像 Linux 的 开发 者 Linus Torvalds 对 “为 什么 开发 Linux” 的 回 
党 二 样 吧 


“因为 它 给 我 市 来 了 快乐 。” 


当 我 还 是 一 个 高 中 生 ， 刚 刚 开始 学 习 编 程 的 时 候 ， 不 知 何故 ， 就 对 编 
程 语言 产生 了 兴趣 。 

周围 很 多 喜欢 计算 机 的 人 + ， 有 的 是 “起 开发 游戏 "， 有 的 是 “ 想 用 它 来 
做 计算 ”， 等 等 ， 都 是 “ 想 用 计算 机 来 做 些 什么 "。 而 我 呢 ， 则 想 弄 明 
白 “ 要 用 什么 编程 语言 来 开发 "、“ 用 什么 语言 开发 更 快乐 ”。 


当时 喜欢 计算 机 的 人 当然 还 是 少数 。 


上 


高 中 的 时 候 ， 我 目 己 并 不 具备 开发 一 种 编程 语言 所 必需 的 技术 和 知 
识 ， 而 且 当 时 也 没有 计算 机 。 但 是 ， 我 看 了 很 多 编程 语言 类 的 书籍 和 
杂志 ， 知 道 了 “还 有 像 Lisp 这 样 优秀 的 编程 语言 "~、“Smalltalk 是 做 面 
问 对 象 设 计 的 ”， 等 等 ， 在 这 些 方面 我 很 着 迷 。 上 大 学 时 就 目 然而 然 地 


选修 了 计算 机 请 言 专 业 "10 年 后 ， 我 通过 开发 Ruby 实现 了 目 己 的 梦 
虽 


[© 


从 1993 年 开始 开发 Ruby 到 现在 已 经 过 去 16 年 了 。 在 这 么 久 的 时 间 
Ruby 而 感到 厌烦。 开发 编程 语言 真是 一 件 非常 
局 C,H 情 2 


1.1.1 编程 语言 的 重要 性 


为 什么 会 这 么 喜欢 编程 语言 ? 我 目 己 也 说 不 清 。 至 少 ， 我 知道 编程 语 
言 是 非常 重要 的 。 


最 根本 的 理由 是 : 语言 体现 了 人 类 思考 的 本 质 。 在 地 球 上 ， 没 有 任何 
超越 人 类 智慧 的 生物 ， 也 只 有 人 类 能 够 使 用 语言 。 所 以 ， 正 古 因 为 语 
言 ， 才 造成 了 人 类 和 别 的 生物 的 区 别 ; 正 是 因为 语言 ， 人 和 人 之 间 才 
能 传递 知识 和 交流 思想 ， 才 能 做 深入 的 思考 。 如 果 没 有 了 语言 ， 人 类 
和 别 的 动物 也 束 不 会 有 太 大 的 区 别 了 。 


在 语言 学 领域 里 ， 有 一 个 Sapir-Whirf 假说 ， 认 为 语言 可 以 影响 说 话 者 
的 思想 。 也 就 是 说 ， 语 言 的 不 同 ， 造 成 了 思想 的 不 同 。 人 类 的 上 自然 语 
言 是 不 是 像 这 个 假说 一 样 ， 我 不 是 很 清楚 2 ， 但 是 我 觉得 计算 机 语言 

很 符合 这 个 假说 。 也 就 是 说 ， 程 序 员 由 于 使 用 的 编程 语言 不 同 ， 他 的 
思考 方法 和 编写 出 来 的 代码 都 会 受到 编程 语言 的 很 大 影响 。 


2 在 语言 学 中 ，Sapir-Whirf 假说 好 像 是 越 来 越 站 不 住 脚 了 。 


也 可 以 这 么 说 ， 如 果 我 们 选择 了 好 的 编程 语言 ， 那 么 成 为 好 程序 员 的 
可 能 性 束 会 大 很 多 。 


20 年 来 一 直 被 奉 为 名 著 的 《人 月 神话 》 的 作者 Frederick P. Brooks 说 

过 : 一 个 程序 员 ， 不 管 他 使 用 什么 编程 语言 ， 他 在 一 定时 间 里 编写 的 

程序 行 数 是 一 定 的 。 如 果真 是 这 样 ， 一 个 程序 员 一 天 可 以 写 500 行程 

ee \`C， 还 是 Ruby， 他 一 天 都 应 该 可 以 写 500 行 
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但 是 ， 汇 编 的 500 行程 序 和 Ruby 的 500 行程 序 所 能 做 的 事情 是 有 天 
壤 之 别 的 。 程 序 员 根据 所 选择 编程 语言 的 不 同 ， 他 的 开发 效率 就 会 有 
十 倍 、 百 倍 甚 至 上 千 们 的 差别 。 


由 于 价格 降低 、 性 能 提高 ， 计 算 机 已 经 很 普及 了 。 现 在 基本 上 各 个 领 
域 都 使 用 了 计算 机 ， 但 如 果 没 有 软件 ， 那 么 计算 机 这 个 盒子 秋 介 一 点 
用 都 没有 了 “。 而 软件 开发 ， 束 有 要求 能 够 用 更 少 的 成 本 、 更 短 的 时 间 ， 
开发 出 更 多 的 软件 。 


需要 开发 的 软件 越 来 越 多 ， 开 发 成 本 却 有 限 ， 所 以 对 于 开发 效率 的 要 
求 束 很 品 。 编 程 语言 束 成 了 解决 这 个 矛盾 的 重要 工具 。 


1.1.2 Ruby 的 原则 

Ruby 本 来 是 我 因 兴 趣 而 开发 的 。 因 为 对 多 种 编程 语言 都 很 感 兴趣 ， 我 
广泛 对 比 了 各 种 编程 语言 ， 哪 些 特性 好 ， 哪 些 特性 没什么 用 ， 等 等 ， 

通过 一 一 进行 比较 、 选 择 ， 最 终 把 一 些 好 的 特性 吸纳 进 了 Ruby 编程 


语言 之 中 。 


如 有 果 什 么 特性 都 不 假 思索 地 吸纳 ， 那 么 这 种 编程 语言 只 会 变 成 以 往 编 
程 语言 的 翻版 ， 从 而 失去 了 它 作 为 一 种 新 编程 语言 的 存在 价值 。 


编程 语言 的 设计 是 很 困难 的 ， 需 要 仔细 期 酌 。 值 得 高 兴 的 是 ，Ruby 的 
设计 很 成 功 ， 很 多 人 都 对 Ruby 给 出 了 很 好 的 评价 。 


那么 ，Ruby 编程 语言 的 设计 原则 是 什么 呢 ? 


Ruby 编程 语言 的 设计 目标 是 ， 让 作为 语言 设计 者 的 我 能 够 轻松 编程 ， 
进而 提高 开发 效率 。 


根据 这 个 目标 ， 我 制定 了 以 下 3 个 设计 原则 。 
。 人 简洁 性 
。 打 展 性 
。 稳 定性 

天 于 这 些 原 则 ， 下 面 分 别 加 以 说 明 。 

1.1.3 ”简洁 性 


以 Lisp 编程 语言 为 基础 而 开发 的 商业 软件 Viaweb 被 Yahoo 收购 后 ， 
Viaweb 的 作者 Paul Graham 也 成 了 大 富 坚 。 最 近 他 叉 成 了 知名 的 技术 
专栏 作家 ， 写 了 一 篇 文章 就 叫 “ 人 简洁 就 是 力量 ”3 。 

3 Paul Graham 目前 是 世界 知名 的 天 使 投资 人 ， 其 公司 Y Combinator 投资 了 很 多 极 有 前 途 的 创 


业 项 目 。Paul Graham 曾 出 版 过 两 本 Lisp 专著 ， 最 新 著作 《黑客 与 画家 》 已 经 由 人 民 邮 电 出 
版 社 出 版 。 编者 注 
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他 还 据 写 了 很 多 倡导 Lisp 编程 语言 的 文 草 。 在 这 些 文章 中 他 提 到 ， 编 
程 语言 在 这 半 个 世纪 以 来 是 向 着 简 党 化 的 方 同 发 展 的 ， 从 程序 的 位 党 
ne "上 面 提 到 的 Brooks 也 持 同 
的 观点 。 


随 着 编程 语言 的 演进 ， 程 序 员 已 经 可 以 更 简单 、 更 抽象 地 编程 了 ， 这 
古 很 大 的 进步 。 男 外 随 着 计算 机 性 能 的 提高 ， 以 前 在 编程 语言 里 实现 
不 了 的 功能 ， 现 在 也 可 以 做 到 了 。 


面向 对 象 编程 束 是 这 样 的 例子 。 面 向 对 象 的 思想 只 是 把 数据 和 方法 看 
作 一 个 整体 ， 当 作对 象 来 处 理 ， 并 没有 解决 以 前 解决 不 了 的 问题 。 


用 面向 对 象 记述 的 算法 也 一 定 可 以 用 非 面向 对 象 的 方法 来 实现 。 而 
且 ， 面 向 对 象 的 方法 并 没有 实现 任何 新 的 东西 ， 却 要 在 运行 时 判定 要 
调用 的 方法 ， 倾 向 于 增 大 程序 的 运行 开销 。 即 使 是 实现 同样 的 算法 ， 
面向 对 象 的 程序 往往 更 慢 ， 过 去 计算 机 的 执行 速度 不 够 快 ， 很 难 允许 
像 这 样 的 < 浪费” 。 

而 现在 ， 由 于 计算 机 性 能 大 大 提高 ， 只 要 可 以 提高 软件 开发 效率 ， 浪 
费 一 些 计算 机 资源 也 无 所 谓 了 

再 举 一 些 例子 。 比 如 内 存 管理 ， 不 用 的 内 存 现在 可 用 垃圾 收集 器 自动 
释放 ， 而 不 用 程序 员 自己 去 释放 了 。 变 量 和 表达 式 的 类 型 检查 ， 在 执 
行 时 已 经 可 以 自动 检查 ， 而 不 用 在 编译 时 检查 了 。 

我 们 看 一 个 关于 斐 波 那 契 (Fibonacci) 数 的 例子 。 图 1-1 所 示 为 用 
Java 程序 来 计算 波导 净 算法 有 很 多 种 ， 我 们 用 最 常用 的 弟 朋 和 
法 来 实现 。 


class Sample { 


private static int fib (int n) { 
if (n<2) { 
return n; 


elset{ 
return fib (n-2) +fib (n-1); 


public static void main (String[] argv) { 
System.out.println("fib(6)="+fib(6)); 
} 
} 


图 1-1 计算 裴 波 那 契 数 的 Java 程序 


1-2 所 示 为 完全 一 样 的 实现 方法 ， 它 是 用 Ruby 编程 语言 写 的 ， 算 法 
完全 一 样 。 和 Java 程 序 相 比 ， 可 以 看 到 构造 完全 一 样 ， 但 是 程序 更 简 
洁 。Ruby 不 进行 明确 的 数据 类 型 定义 ， 不 必要 的 声明 都 可 以 省 略 。 所 
以 ， 程 序 吕 非 党 简 清 了 。 


def fib (n) 
if n<2 
n 
else 
fib (n-2) +fib (n-1) 


end 
end 
print "fib (6) =", fib (6) ， "\n" 


图 1-2 ”计算 斐 波 那 契 数 的 Ruby 程序 

算法 的 教科 书 总 是 用 伪 码 来 描述 算法 。 如 果 像 这 样 用 实际 的 编程 语言 
来 描述 算法 ， 那 么 像 类 型 定义 这 样 的 非 实质 代码 就 会 占 很 多 行 ， 让 人 
不 能 专心 于 算法 。 

如 果 可 以 把 伪 码 中 非 实质 的 东西 去 掉 ， 只 保留 描述 算法 的 部 分 就 直接 
运行 ， 那 么 这 种 编程 语言 不 就 是 最 好 的 吗 ”Ruby 的 目标 就 是 成 为 开发 
效率 高 “能 直接 运行 的 伪 码 式 编程 语言 "。 


1.1.4 扩展 性 


下 一 个 设计 原则 是 “扩展 性 ”。 编 程 语言 作为 软件 开发 工具 ， 其 最 大 的 

等 征 束 是 对 要 实现 的 功能 事 匈 没有 限制 。“ 如 果 想 做 束 可 以 做 到 ”， 这 

听 起 来 像 小 孩子 说 的 话 ， 但 在 编程 语言 的 世界 里 ， 真 的 就 是 这 么 一 回 

事 。 不 管 在 什么 领域 ， 做 什么 处 理 ， 只 要 用 一 种 编程 语言 编写 出 了 程 

序 ， 我 们 就 可 以 说 这 种 编程 语言 运用 于 这 一 领域 。 而 且 ， 涉 及 领域 之 
会 远 远 超出 我 们 当初 的 预想 。 


1999 年 ， 关 于 Ruby 的 第 一 本 书 《 面 向 对 象 脚本 语言 Ruby》 出 版 的 时 
候 ， 我 在 里 面 写 道 ，“Ruby 不 适合 的 领域 "包括 “以 数值 计算 为 主 的 各 
序 " 和 " 数 万 行 的 大 型 程序 ”。 


但 是 几 年 后 ， 规 模 达 几 万 行 、 几 十 万 行 的 Ruby 程序 被 开发 出 来 了 。 
气象 数据 分 析 ， 力 至 生物 领域 中 也 用 到 了 Ruby。 现 在 ， 美 国 国家 海洋 
和 大 气管 理 局 (NOAA，National Oceanic and Atmospheric 
Administration) 、 美 国 国家 航空 和 航天 局 (NASA，National 
Aeronautics and Space Administration) 也 在 不 同 的 系统 中 运用 了 
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情况 整 古 这 样 ， 编 程 语言 开发 者 事先 并 不 知道 这 种 编程 语言 会 用 来 开 
发 什么 ， 会 在 哪些 领域 中 应 用 。 所 以 ， 编 程 语言 的 扩展 性 非常 重要 。 


实现 扩展 性 的 一 个 重要 方法 是 抽象 化 。 抽 和 象 化 是 指 把 数据 和 要 做 的 处 
理 都 封 狐 起 来 ， 束 像 一 个 黑 盒 子 ， 我 们 不 知道 它 的 内 部 是 怎么 实现 
的 ， 但 是 可 以 用 它 。 


以 前 的 编程 语言 在 抽象 化 方面 是 很 弱 的 ， 要 做 什么 处 理 首 移 归 了 解 很 
多 编程 语言 的 细节 。 而 很 多 面 癌 对 象 或 者 男 数 式 的 现代 编程 语言 ， 都 
在 抽象 化 方面 做 得 很 好 。 


Ruby 也 不 例外 。Ruby 从 刚 开始 设计 时 束 用 了 面向 对 象 的 设计 方法 ， 
数据 和 处 理 的 抽象 化 提高 了 它 的 开发 效率 。 我 在 1993 年 设计 Ruby 
时 ， 在 脚本 编程 语言 中 采用 面向 对 象 思想 的 还 很 少 ， 用 类 库 方式 来 提 
供 编程 语言 的 束 更 少 了 。 所 以 现在 Ruby 的 成 功 ， 说 明 当 时 采用 面向 
对 象 方法 的 判断 是 正确 的 。 


Ruby 的 扩展 性 不 仅仅 体现 在 这 些 方面 。 


比如 Ruby 以 程序 块 这 种 明日 易 慌 的 形式 给 程序 员 提 供 了 相当 于 Lisp 
高 阶 函 数 的 特性 ， 使 “普通 的 程序 员 ” 也 能 够 通过 目 定 义 来 实现 控制 结 
构 的 高 阶 画 数 扩展 。 又 比如 已 有 类 的 扩展 特性 ， 昌 然 有 一 定 的 危险 
性 ， 但 是 程序 却 可 以 非常 灵活 地 扩展 。 关 于 这 些 面 癌 对 象 、 程 序 块 、 
类 扩展 特性 的 内 容 ， 后 面 的 章节 还 会 详细 介绍 。 


这 些 特性 的 共同 点 十， 它们 部 表明 了 编程 语言 让 程序 员 最 大 限度 地 获 
得 了 扩展 能 力 。 编 程 语言 不 是 从 安全 性 角度 堵 虑 以 减少 程序 员 犯 错 
误 ， 而 是 在 程序 员 目 己 人 负责 的 前 提 下 为 他 提供 最 大 限度 发 挥 能 力 的 灵 
活性 。 我 作为 Ruby 的 设计 者 ， 也 是 Ruby 的 最 初 用 户 ， 从 这 种 设计 的 
结 采 可 以 看 出 ，Ruby 看 重 的 不 是 明 扼 保 身 ， 而 是 如 何 最 大 限度 地 发 挥 
程序 员 目 身 的 能 力 。 


关于 扩展 性 ， 有 一 点 是 不 能 忽视 的 ， 即 “不 要 因为 想当然 而 加 入 无 谓 的 
限制 *。 比 如 说 ， 刚 开始 开发 Unicode 时 ， 开 发 者 想当然 地 认为 16 位 
(65 535 个 字符 ) 就 足够 容纳 世界 上 所 有 的 文字 了 ; 同样 ，Y2K 问题 
也 是 因为 想当然 地 认为 用 2 位 数 表示 日 期 就 够 了 才 导 致 的 。 从 某 种 角 
度 说 ， 编 程 的 历史 就 是 因为 想当然 而 失败 的 历史 。 而 Ruby 对 整数 范 
围 不 做 任何 限定 ， 尽 最 大 努力 排除 “想当然 ”。 


1.1.5 ”稳定 性 


虽然 Ruby 非常 重视 扩展 性 ， 但 是 有 一 个 特性 ， 尽 管 明知 道 它 能 带 来 
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安 可 以 替换 掉 原 有 的 程序 ， 给 原 有 的 程序 加 入 痢 的 功能 。 如 采 有 了 
安 ， 不 管 是 控制 结构 ， 还 是 赋值 ， 都 可 以 随心 所 和 欲 地 进行 扩展 。 事 实 
上 ，Lisp 编程 语言 提供 的 控制 结构 很 大 一 部 分 都 是 用 安 来 定义 的 。 


所 谓 Lisp 流 ， 其 语言 核心 部 分 仅仅 提供 极为 有 限 的 特性 和 构造 ， 其 余 
的 控制 结构 都 是 在 编译 时 通过 用 安 来 组 闭 其 核心 特性 来 实现 的 。 这 也 
瓯 意味 着 ， 由 于 有 了 这 种 无 与 伦比 的 扩展 性 ， 只 要 掌握 了 Lisp 基本 语 
法 $ 式 〈 从 本 质 上 讲 就 是 括号 表达 式 ) ， 就 可 以 开发 出 千奇百怪 的 语 
言 。Common Lisp 的 读 取 安 提供 了 在 读 取 $ 式 的 同时 进行 语法 变换 的 
功能 ， 这 惑 在 实际 上 摆脱 了 $ 式 的 束缚 ， 任 何 语法 的 语言 都 可 以 用 
Lisp 来 实现 。 


那么 ， 我 为 什么 拒绝 在 Ruby 中 引入 Lisp 那样 的 宏 呢 ? 这 和 是 因 为 ， 如 
果 在 编程 语言 中 引入 安 的 话 ， 活 用 安 的 程序 殉 会 像 症 用 完全 不 同 的 专 
用 编程 语言 写 出 来 的 一 样 。 比 如 说 Lisp 就 经 常 有 这 样 的 现象 ， 活 用 宏 
编写 的 程序 A 和 程序 B， 只 有 很 少 一 部 分 古 共通 的 ， 从 语法 到 词汇 部 
各 不 相同 ， 完 全 像 是 用 不 同 的 编程 语言 写 的 。 


对 程序 员 来 说 ， 程 序 的 开发 效率 固然 很 重要 ， 但 是 写 出 的 程序 是 否 具 
有 很 高 的 可 读 性 也 非常 重要 。 从 整体 来 看 ， 程 序 员 读 程序 的 时 间 可 能 
比 写 程 序 的 时 间 还 长 。 读 程序 包括 为 理解 程序 的 功能 去 读 ， 或 者 是 为 
维护 程序 去 读 ， 或 者 是 为 调试 程序 去 读 。 


编程 语言 的 语法 是 解读 程序 的 路 标 。 也 就 是 说 ， 我 们 可 以 不 用 退 究 程 
序 或 库 提 供 的 类 和 方法 的 详细 功能 ， 但 是 ,“ 这 里 调用 了 函数 "、“ 这 里 
有 判断 分 支 ”等 基本 的 “常识 ”在 我 们 读 程序 时 很 重要 。 


可 是 一 旦 引入 了 宏 定义 ， 这 一 第 识 束 不 再 到 用 了 。 看 起 来 像 古 方法 调 
用 ， 而 实际 上 可 能 十 控 制 结构 ， 也 可 能 古 赋 值 ， 也 可 能 有 非常 闫 重 的 
副作用 ， 这 束 需 要 我 们 去 查阅 每 个 函数 和 方法 的 文档 ， 解 读 程序 束 会 
变 得 相当 困难 。 


当然 了 ， 我 知道 世界 上 有 很 多 Lisp 程序 员 并 不 受 此 之 系 ， 他 们 正 是 通 
过 面 问 特定 程序 定制 语言 而 最 大 限度 地 提高 了 开发 效率 。 不 过 在 我 个 
人 看 来 ， 他 们 只 是 极 少 数 的 一 部 分 程序 员 。 


我 相信 ， 作 为 在 世界 上 广泛 使 用 的 编程 语言 ， 应 该 有 稳定 的 语法 ， 不 
能 像 随 风 肚 荡 的 灯 必 那样 内 烁 不 定 。 


1.1.6 “一切 皆 因 兴 趣 


当然 ，Ruby 不 是 世界 上 唯一 的 编程 语言 ， 也 不 能 说 它 是 最 好 的 编程 语 
言 。 各 种 各 样 的 编程 语言 可 以 在 不 同 的 领域 中 应 用 ， 各 有 所 长 。 我 自 
己 以 及 其 他 Ruby 程序 员 ， 用 Ruby 开发 效率 很 高 ， 所 以 觉得 Ruby 最 
为 得 心 应 手 *。 当然 ， 用 惯 了 Python 或 者 Lisp 的 程序 员 ， 也 会 觉得 屠 
些 编程 语言 是 最 好 的 。 


不 管 怎么 说 ， 编 程 语言 存在 的 目的 是 让 人 用 它 来 开发 程序 ， 并 且 尽量 
能 提高 开发 效率 。 这 样 的 话 ， 才 能 让 人 在 开发 中 体会 到 编程 的 乐趣 。 


我 在 海外 讲演 的 时 候 ， 和 很 多 人 交流 过 使 用 Ruby 的 感想 ， 比 较 有 代 
表 性 的 是 : “用 Ruby 开发 很 快乐 ， 谢 谢 ! ” 


征 啊 ， 程 序 开发 本 来 束 是 一 件 很 块 乐 、 很 刺激 和 很 有 创造 性 的 事情 
想起 中 学 的 时 候 ， 用 功能 不 强 的 BASIC 编程 语言 开发 ， 当时 也 是 很 忆 
乐 的 。 当 然 ， 工 作 中 会 有 很 多 的 限制 和 困难 ， 编 程 也 并 不 部 是 一 直 快 
乐 的 ， 这 也 是 世 之 常情 。 


Ruby 能 够 提供 很 融 的 开发 效率 ， 计 我 们 在 工作 中 返 脱 很 多 困难 和 硕 
恼 ， 这 也 是 我 开发 Ruby 的 目的 之 一 吧 


第 2 章 面 回 对象 
2.1 编程 和 面 癌 对 象 的 关系 


所 谓 编 程 ， 就 是 把 工作 的 方法 告诉 计算 机 。 但 是 ， 计 算 机 是 没有 思想 
的 ， 它 只 会 简单 地 按照 我 们 说 的 去 做 。 计 算 机 看 起 来 功能 很 强大 ， 其 
实 它 也 仪 仅 只 会 做 高 速 计算 而 已 。 如 果 告 诉 它 效 率 很 低 的 方法 ， 它 也 
只 是 简单 机 械 地 去 执行 。 所 以 ， 到 瓜 是 最 大 程度 地 发 挥 计算 机 的 能 
力 ， 还 是 扼杀 它 的 能 力 ， 都 取决 于 我 们 编写 的 程序 了 。 


程序 员 让 计算 机 完全 按照 目 己 的 意志 行事 ， 可 以 说 是 计算 机 的 “ 主 
宰 ”。 话 虽 如 此 ， 但 世人 多 认为 程序 员 是 在 为 计算 机 工作 。 


不 ， 不 只 是 一 般 人 ， 很 多 计算 机 业内 人 士 也 是 这 样 认为 的 ， 甚 至 比例 
更 高 。 难 道 因 为 是 工作 ， 所 以 就 无 可 奈何 了 吗 ? 


2.1.1 由 倒 的 构造 

如 果 仔 细 想 想 ， 束 会 感到 很 不 可 思议 。 为 什么 程序 员 非 要 像 计 算 机 的 
0 
念头 的 呢 ? 


我 想 ， 其 中 的 一 个 原因 是 “阿尔 法 综合 征 *”。 阿 尔 法 综合 征 是 指 在 饲养 
宠物 狗 的 时 候 ， 宠 物 狗 误解 了 一 言 细心 照顾 它 的 主人 的 地 从 反而 感 


觉 到 它 目 己 是 主人 ， 比 主人 更 了 不 起 。 


计算 机 也 不 是 好 伺候 的 。 系 统 设计 困难 重重 ， 程 序 有 时 也 会 有 错误 。 
一 旦 有 规格 变更 ， 程 序 员 就 要 动手 改 程序 ， 程 序 有 了 错误 ， 也 需要 一 
个 个 纠正 过 来 。 


所 以 在 诸如 此 类 烦琐 的 工作 中 ， 台 会 发 生 所 谓 的 “ 逆 阿 尔 法 综合 征 ? 现 
象 ， 主 从 关系 颠倒 ， 程 序 员 沦 为 “计算 机 的 奴隶 *"， 说 得 客气 一 些 ， 也 
顶 多 能 算是 “计算 机 的 看 门 狗 ”。 难 道 这 是 人 性 使 然 ? 


不 ， 不 要 轻易 放弃 。 人 是 万 物 之 灵 ， 比 计算 机 那 玩意 儿 要 聪明 百倍 ， 
当然 应 该 摊 脱 计算 机 奴隶 的 地 位 ， 把 工作 都 推 给 机 右 来 干 ， 目 己 尽情 
享受 轻松 目 在 。 因 此 ， 我 们 的 目标 殉 是 让 程序 员 夺 回 主 动 权 


程序 员 如 果 能 够 充分 利用 好 计算 机 所 具有 的 高 速 计算 能 力 和 信息 处 理 
能 力 ， 有 可 能 会 从 奴隶 播映 一 变 ,“ 像 变 戏法 一 样 ? 完 成 工作 ， 实 现 翻 
天 和 窗 地 的 大 逆转 。 


但 是 ， 要 想 赢得 这 场 夺回 主动 权 的 战争 “武器 "是 必需 的 。 那 就 是 本 
书 要 讲解 的 “语言 "和 “技术 ”。 


Ruby 的 安装 


读者 中 熬 怕 有 不 少 人 是 初次 安装 Ruby， 所 以 这 里 再 介绍 一 下 Ruby 
的 安装 方法 。 在 我 写 这 本 书 的 时 候 ，Ruby 的 版 本 是 1.9.1。 在 我 平 
时 使 用 的 Debian GNU/Linux 操作 系统 中 ， 用 下 面 的 方法 来 安装 
Ruby ° 

其 他 的 Linux 操作 系统 大 多 也 提供 了 Ruby 的 开发 包 。 


在 Windows 操作 系统 中 安装 Ruby 时 ， 直 接点 击 安装 文件 就 可 以 
了 。 从 下 面 的 网 站 可 以 下 载 安装 程序 : 
http://rubyinstaller.rubyforge.org ° 


如 条 从 Ruby 源 程序 来 编译 安装 的 话 ， 可 以 从 下 面 的 网 站 来 下 载 
Ruby 源 程 序 包 (tarball) : http:/ruby-lang.org 。 


编译 和 安装 的 方法 如 下 。 


$ tar zxvf ruby-1.9.1-p0O.tar.gz 
$ cd ruby-1.9.1-p0 

$ ./configure 

$ make 


su 
# make install 


2.1.2 ”主宰 计算 机 的 武器 
程序 员 或 者 将 要 成 为 程序 员 的 人 人， 如果 成 了 计算 机 的 奴隶 ， 那 是 十 分 


不 鲜 的 。 为 了 能 够 主 军 计算 机 ， 必 须 以 计算 机 的 特性 和 编程 语言 作为 
五 O 


编程 语言 是 描述 程序 的 方法 。 目 前 有 很 多 种 编程 语言 ， 有 名 的 有 
BASIC、 FORTRAN ~ C、 C++、 Java、 Perl、 PHP、Python、Ruby 等 。 


从 数学 的 角 拔 来 看 ， 几 乎 所 有 的 编程 语言 都 具备 “图 灵 完 备 ” 的 属性 ， 
无 论 何 种 编程 语言 都 可 以 记述 等 价 的 程序 ， 但 这 并 不 是 说 选择 什么 样 
的 编程 语言 都 一 样 。 每 种 编程 语言 都 有 目 己 的 特征 、 属 性 ， 都 各 有 长 
处 和 短处 、 适 合 的 领域 和 不 适合 的 领域 。 写 程序 的 难 易 程 度 〈 生 产 
力 ) 也 有 很 大 的 不 同 。 

1 图 灵 完 备 指 在 可 计算 性 理论 中 ， 编 程 语言 或 任意 其 他 的 逻辑 系统 具有 
计算 能 力 。 换 言 之 ， 此 系统 可 与 通用 图 灵机 互相 模拟 。 这 个 词 源 于 引入 
阿兰 .图 灵 (Alan Turing) 。 


民 


司 于 通用 图 灵机 的 
灵机 概念 的 数学 家 


列 下 


有 人 研究 表明 ， 开 发 程序 时 用 的 编程 语言 和 生产 力 并 没有 关系 ， 不 论 用 
全 一 定时 间 内 程序 的 开发 规模 〈 在 一 定 程度 上 ) 是 相当 


还 有 一 些 研 究 表明 ， 对 于 同样 的 任务 ， 程 序 规模 会 因为 开发 时 选取 的 
编程 语言 和 库 而 相差 数 百倍 ， 甚 至 数 千 倍 。 所 以 如 有 果 选 用 了 合适 的 编 
程 语言 ， 那 么 你 的 能 力 束 可 能 增长 数 千 倍 。 


但 是 不 论 什 么 都 是 有 代价 的 。 比 如 效率 高 的 开发 环境 ， 在 执行 时 效率 
往往 会 很 低 。 还 有 很 多 领域 需要 人 们 想 尽 办 法 去 提高 速度 。 在 这 里 ， 
因为 我 们 在 讨论 如 何 主 衬 计算机 ， 所 以 尽 可 能 地 选择 让 人 轻松 的 编程 


语言 。 基 于 这 个 观点 ， 本 书 用 Ruby 编程 语言 来 讲解 。 当 然 ，Ruby 是 
我 设计 的 ， 讲 解 起 来 相对 也 了 束 容 易 点 。 


Ruby 是 面向 对 象 的 编程 语言 ， 具 有 简 话 和 一 致 性 。 开 发 Ruby 的 守则 
是 用 它 可 以 轻松 编程 。 

Ruby 的 运行 环境 多 种 多 样 ， 包 括 Linux 及 UNIX 系列 操作 系统 、 
Windows、MacOS X 等 各 种 平台 ， 很 多 系统 上 都 有 Ruby 的 软件 包 ? 。 
当然 ， 如 果 有 C 编译 右 ， 也 可 以 从 源 代码 来 安装 Ruby。 


2 比如 MacOS X 10.5 中 标准 搭载 了 Ruby 1.8.6。 


2.1.3 ”怎样 写 程序 


使 用 编程 语言 写 好 程序 是 有 技巧 的 。 在 本 书 中 ， 将 会 介绍 表 2-1 中 列 
出 的 编程 技巧 。 


表 2-1 本 书 讲解 的 主要 编程 技术 


En 比如 变量 名 的 选择 方法 、 数 的 
写法 等 。 


算法 是 解决 问题 的 方法 。 现 实 中 各 种 算法 都 已 经 广为人知 了 ， 所 以 编 
程 时 的 算法 也 束 是 对 这 些 技巧 的 具体 应 用 。 


有 很 多 算法 ， 如 采 单 靠 目 己 去 想 是 很 难 想 出 来 的 。 比 方 说 数组 的 排序 
束 有 很 多 的 算法 ， 如 果 我 们 对 这 些 算法 根本 整 不 了 解 ， 那 么 要 想 做 出 
高 速 排序 程序 会 很 困难 。 算 法 和 特定 的 数据 结构 关系 很 大 。 所 以 有 一 
位 计算 机 先 碟 曾经 说 过 : “程序 殉 是 算法 加 数据 结构 。 史 


3 Algorithms + Data Structures = Programs ，Niklaus Wirth 著 。Wirth 是 在 1971 年 开发 了 
Pascal 编程 语言 的 计算 机 学 者 。 


设计 模式 是 指 设计 软件 时 ， 根 据 以 前 的 设计 经 验 对 设计 方法 进行 分 
类 。 算 法 和 数据 结构 从 广义 上 来 说 也 是 设计 模式 的 一 种 分 类 。 有 名 的 
分 类 (设计 模式 ) 有 23 种 4 。 


4 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》，Erich Gamma 等 著 ， 机 械 工 业 出 版 社 出 版 。 


开发 方法 是 指 开发 程序 时 的 设计 方法 ， 指 包括 项 目 管理 在 内 的 整个 程 
序 开发 工程 。 小 的 软 件 项 目 可 能 不 是 很 明显 ， 在 大 的 软件 项 目 中 ， 随 
着 开发 人 员 的 增加 ， 整 个 软件 工程 的 开发 方法 束 很 重要 。 


2.1.4 面向 对 象 的 编程 方法 


下 面 ， 我 们 来 看 看 Ruby 的 基本 原理 一 一 面向 对 象 的 设计 方法 。 面 向 
对 和 象 的 设计 方法 是 20 世纪 60 年 代 后 期 ， 在 诞生 于 瑞典 的 Simula 编程 
语言 中 最 早 开 始 使 用 的 。Simula 作为 一 种 模拟 语言 ， 对 于 模拟 的 物 

体 ， 引 入 了 对 象 这 种 概念 。 比 如 说 对 于 交通 系统 的 模拟 ， 车 和 信号 就 
变 成 了 对 象 。 一 辆 辆 车 和 一 个 个 信号 就 古 一 个 个 对 象 ， 而 用 来 定义 这 
些 车 和 信号 的 ， 束 是 类 。 


此 后 ， 从 20 世纪 70 年 代 到 80 年 代 前 期 ， 美国 施乐 公司 的 帕 洛 阿尔 托 
研究 中 心 (PARC) 开发 了 Smalltalk 编程 语言 。 从 Smalltalk-72、 
Smalltalk-78 到 Smalltalk-80， 他 们 开发 完成 了 整个 Smalltalk 系列 。 
Smalltalk 编程 语言 对 近代 面 同 对 象 编程 语言 影响 很 大 ， 所 以 把 它 称 为 
面 回 对 象 编程 语言 之 母 也 不 为 过 。 


在 这 之 后 ， 受 Simula 影响 比较 大 的 有 C++ 编程 语言 ， 再 以 后 还 有 Java 
编程 语言 ， 而 现在 大 多 数 编程 语言 使 用 的 都 是 面 问 对象 的 设计 方法 。 


如 今 ， 面 癌 对 象 的 设计 思想 已 经 相当 重要 且 深 入 人 心 了 ， 以 后 它 的 地 
位 和 重要 性 也 应 该 不 会 降低 。 所 以 在 学 习 编 程 语 言 时 ， 对 面 癌 对 象 设 
计 思 想 的 理解 束 非 常 重要 。 


但 是 ， 很 多 程序 员 觉 得 面向 对 象 的 设计 思想 很 难 ， 不 容易 理解 ， 所 以 
在 本 章 中 ， 我 们 将 详细 介绍 一 下 面 回 对 象 的 设计 方法 。 


2.1.5 面向 对 象 的 难点 


面 同 对 象 的 难点 在 于 ， 里 然 有 关于 面 癌 对 象 的 说 明和 例子 ,但 古 面向 
对 象 具体 的 实现 方法 却 不 是 很 明确 。 


面向 对 象 这 个 词 本 身 是 很 抽象 的 ， 越 抽象 的 东西 ， 人 们 束 越 难 理解 。 
2 
\ 同 的 理解 。 


这 里 ， 我 们 暂时 回避 一 下 “ 面 同 对 象 ”的 整体 概念 这 一 问题 ， 首 先 集中 
说 明 “ 面 向 对 象 编程 ”。 

至 于 “好 像 是 听 明 日 了 ， 还 是 不 会 使 "这 一 点 ， 原 因 可 能 在 于 平易 的 比 
喻 和 实际 编程 之 间 差 距 太 大 。 这 里 ， 我 们 选择 Ruby 这 种 向 单 易 用 的 
面 问 对 象 编程 语言 ， 和 希望 能 够 拉 近 比喻 和 实例 之 间 的 距离 。 


另外 很 重要 的 一 点 ， 面 回 对 象 编程 语言 有 很 多 种 类 ， 也 有 很 多 技巧 。 
一 下 子 多 部 理解 是 很 困难 的 ， 我 们 分 别 加 以 说 明 。 


我 认为 面 回 对象 编程 语言 中 最 重要 的 技术 是 “多 态 性 ”。 我 们 惑 匈 从 多 
态 性 说 起 吧 。 


2.1.6 多 态 性 


多 态 性 ， 英 文 是 polymorphism， 其 中 词 头 poly- 表 示 复 数 ，morph 表示 
形态 ， 加 上 词尾 -ism， 束 是 复数 形态 的 意思 ， 我 们 称 它 为 多 态 性 。 


换个 说 法 ， 多 态 束 是 可 以 把 不 同 种 类 的 东西 当做 相同 的 东西 来 处 理 。 
只 从 字面 上 分 析 不 容易 理解 ， 举 例 说 明 一 下 。 

看 看 图 2-1 所 示 的 3 个 箱子 。 每 个 箱子 都 有 不 同 的 盖子 。 一 个 是 一 般 
的 兰 子 ， 一 个 是 市 锁 的 兰 子 ， 一 个 是 市 有 彩 市 的 吉 子 。 因 为 箱 千 本身 


非常 昂 贯 ， 所 以 每 个 箱子 都 有 专人 管理 ， 如 采 要 从 箱子 里 取 东 西 ， 要 
由 管理 人 员 去 做 。 


i 
ay 


图 2-1 操作 对 象 是 3 个 箱子 ， 分 别 是 盖 着 盖子 的 箱子 、 加 了 锁 的 箱子 、 系 着 彩带 的 箱子 
打开 3 个 箱子 的 方法 都 不 同 ， 但 如 果 发 出 同样 的 打开 箱子 的 命令 ，3 
个 人 会 用 目 己 的 方法 来 打开 目 己 的 箱子 。 因 此 ，3 个 箱子 虽然 各 有 不 
同 ， 但 它们 同样 “都 是 箱 了 于 ， 可 以 打开 盖子 ”。 这 束 是 多 人 态 性 的 本 质 。 


在 编程 中 ,“ 打 开 箱子 ”的 命令 ， 我 们 称 之 为 消 轧 ， 而 打开 不 同 箱子 的 
具体 操作 ， 我 们 称 之 为 方法 。 


2.1.7 具体 的 程序 
上 面 例子 的 程序 如 图 2-2 所 示 。 


# 用 变量 box1、box2、box3 代表 3 个 箱子 


box_open(box1) # 表示 打开 箱子 


box_open(box2) # 表示 开锁 ， 打 开 箱子 
box_open(box3) # 表示 解 开 彩带 ， 打 开 箱子 


图 2-2 例子 的 程序 


box_open 是 打开 箱子 的 方法 ， 相 当 于 前 面 所 说 的 “管理 员 ”。 调 用 
box_open 这 个 方法 时 ， 方 法 会 根据 参数 (箱子 的 种 类 ) 的 不 同 做 相 
应 的 处 理 。 你 只 要 说 “打开 箱子 ”， 箱 子 束 真 的 被 打开 了 。 这 种 “根据 对 
象 不 同类 型 而 进行 适当 地 处 理 ? 就 是 多 态 性 的 基本 内 容 。 


但 只 有 图 2-2 还 不 够 。 我 们 来 考虑 一 下 如 何 定 义 box_open 这 个 方法 
吧 。 如 果 只 是 单纯 地 实现 这 个 方法 ， 也 许 就 会 写成 图 2-3 的 样子 。 


def box_open(box ) 


# 判断 box 类 型 的 方法 


if box_type(box)=="plain" 
puts(" 打 开 箱 子 ") 

elsif box_ type(box)=="lock" 
puts(" 开 锁 ， 打 开 箱子 ") 

elsif box_ type(box)=="ribbon" 
puts(" 解 开 彩带 ， 打 开 箱子 ") 

else 


puts(" 不 知道 打开 箱子 的 方法 ") 


end 


图 2-3 图 2-2 例子 的 box_open 方法 的 内 容 


但 是 ， 图 2-3 所 示 的 处 理 并 不 能 令 人 人 满意。 如果 要 增加 箱子 种 类 ， 这 
个 方法 中 的 代码 就 要 重 写 ， 而 且 如 果 还 有 其 他 类 似 于 box_open、 需 
要 根据 箱子 类 型 来 做 不 同 处 理 的 方法 ， 那 么 需要 修改 的 地 方 就 越 来 越 
多 ， 追 加 箱子 种 类 就 会 变 得 非常 困难 。 


程序 修改 得 越 多 ， 出 错 的 可 能 性 也 束 越 大 ， 结 采 可 能 是 程序 本 身 根 本 
束 动 不 起 来 了 。 


像 这 样 的 修改 本 来 束 不 该 直接 由 人 来 做 。 根 据 数 据 类 型 来 进行 合适 的 
处 理 (调用 合适 的 方法 ， 本 来 就 应 该 是 编程 语言 这 种 工具 应 该 完成 
的 事 。 只 有 实现 了 这 一 点 ， 才 能 称 为 真正 的 多 态 。 


我 们 修改 一 下 图 2-2 的 程序 ， 来 看 看 真正 的 多 态 是 如 何 工 作 


2-4 的 程序 把 参数 移 到 了 前 头 ， 并 增加 了 一 个 “.”。 这 行 代码 可 以 理 
解 为 “给 前 面 式 子 的 值 发 送 open 消 妃 ”。 也 就 是 说 ， 它 会 “根据 前 面 式 
子 的 值 ， 调 用 合适 的 open 方法 ”。 这 束 古 利用 了 多 态 性 的 调用 方法 。 


# 用 变量 “box1`、`box2`、`box3” 代 表 3 种 箱 


box1.open() # 表示 打开 箱子 


box2.open() # 表示 开锁 ， 打 开 箱子 
box3.open() # 表示 解 开 彩带 ， 打 开 箱 


图 2-4 图 2-2 例子 程序 的 改良 版 ， 改 变 了 参数 调用 的 方法 


2-4 程序 中 的 各 种 处 理 方法 的 定义 如 图 2-5 所 示 。 


变量 pox1、box2、box3 代表 3 种 箱子 


def box1.open() 
puts(" 打 开 箱子 ") 
end 


def box2.open() 
puts(" 开 锁 ， 打 开 箱 
end 


def box3.open() 
puts(" 解 开 彩 市 ， 
end 


图 2-5 方法 的 定义 
2-5 的 程序 定义 了 3 种 箱子 : box1 、box2 、box3 ， 表 示 “ 打 开 箱 
子 ” 的 不 同方 法 。 


比较 图 2-5 和 图 2-3 的 程序 可 以 看 到 ， 程 序 中 不 再 有 直 日 的 条 件 判 

晰 ， 非 常 简单 上 明了。 即使 在 图 2-5 中 程序 增加 一 种 新 的 箱子 ， 比 如 “ 横 
回 清 动 之 后 打开 箱子 ”， 也 不 需要 对 原来 的 程序 做 任何 修改 。 不 需要 修 
改 ， 当 然 也 束 没 有 因 修 改 而 出 错 的 危险 。 


2.1.8 ”多 态 性 的 优点 
前 面 说 明了 多 态 性 ， 那 么 它 到 的 有 什么 好 处 呢 ? 


首先 ， 各 种 数据 可 以 统一 地 处 理 。 多 态 性 可 以 让 程序 只 关注 要 处 理 什 
么 《What) ， 而 不 是 怎么 去 处 理 (How) 


其 次 ， 征 根据 对 象 的 不 同 目 动 选择 最 合适 的 方法 ， 而 程序 内 部 则 不 发 
生 冲 突 。 不 管 调用 有 锁 的 箱子 ， 还 古 系 着 彩带 的 箱子 ， 它 们 都 能 目 动 
处 理 ， 不 用 担心 调用 中 会 发 生 错 误 ， 这 样 就 会 减轻 程序 员 的 负担 。 


再 次 ， 如 有 果 有 新 数据 需要 对 应 处 理 的 话 ， 通 过 简单 的 妃 加 束 可 以 实现 
了 ， 而 不 需要 改动 以 前 的 程序 ， 这 吏 让 程序 具备 了 扩展 性 。 


综 上 所 述 ， 多 仿 性 提 咒 了 开发 效 座 ， 所 以 说 ， 面 癌 对 象 技术 最 重要 的 


一 个 概念 应 该 是 多 态 性 。 


相关 的 Ruby 语法 


0 
3 


首 匈 ， 以 “#" 开 始 的 行 是 注释 行 ， 注 释 的 内 容 随便 是 什么 都 可 以 。 


if box_type(box)== "plain" 
puts(" 打 开 箱子 ") 


elsif box_type(box)== "lock" 
"用 钥匙 打开 箱子 " ) 
_type(box)== "ribbon" 
" 解 开 彩带 ， 打 开 箱子 " ) 


' 不 知道 打开 箱子 的 方法 ") 


图 2-6 条 件 判断 程序 


当 第 一 个 条 件 成 立 的 时 候 ， 残 执行 第 一 段 处 理 代码 ， 当 第 二 个 条 件 
成 立 的 时 候 ， 束 执行 第 二 段 处 理 代码 ;， 而 当 所 有 条 件 痢 不 成 立 的 时 
候 ， 束 执行 else 下 面 的 处 理 代码 。 如 果 人 处 理 代码 由 多 条 语句 并 列 
构成 ， 不 需要 用 “{} ” 括 起 来 ， 而 是 用 elsif 或 者 end 等 你 留 词 来 
分 隔 ， 这 一 点 也 许 会 让 你 觉得 耳目 一 新 。 


在 Ruby 的 if 语句 中 ，elsif 部 分 可 以 重复 出 现任 意 次 。 当 然 也 
可 以 是 0 次 ， 这 时 候 elsif 是 可 以 省 略 的 。else 同样 也 是 可 以 省 
略 的 。 


对 于 "plain" 来 说 ，"" 中 的 是 字符 串 。 与 数值 一 样 ， 字 符 串 也 是 
能 直接 写 在 程序 里 的 数据 。 在 Ruby 中 ， 这 些 数据 都 是 对 象 ， 我 们 
将 在 以 后 的 章节 中 详细 说 明 。 


像 box 这 样 ， 以 小 写 英 文字 母 开 头 的 是 变量 。 这 个 例 千 中 已 事先 设 
置 好 了 变量 的 值 。 像 其 他 的 编程 语言 一 样 ， 变 量 的 赋值 语句 是 


变量 = 值 
用 来 初始 化 变量 。 
要 判断 两 个 表达 式 的 值 是 否 一 样 ， 可 以 使 用 “== ”运算 从 。 


表达 式 == 表达 式 


请 注意 ， 在 赋值 语句 中 是 用 一 个 等 号 ， 而 判断 两 个 表达 式 征 否 相等 
eh ° 这 跟 Java 或 C 等 许多 语言 中 的 用 法 也 都 是 一 样 
后 面 有 小 括号 的 语句 是 方法 调用 。 如 


puts(" 打 不 开 箱 子 ") 


puts 方法 可 以 把 字符 串 显示 在 画面 上 。 
最 后 ， 使 用 def 语句 来 定义 方法 。 


2.2 ”数据 抽象 和 继承 


多 仿 性 、 数 据 抽 象 和 继承 被 称 为 面向 对 象 编程 的 三 原则 。 这 三 项 原则 
通常 也 会 有 别 的 称谓 。 例 如 ， 把 多 态 性 称 为 动态 绑 定 ， 把 数据 抽象 称 
为 信息 隐藏 或 封 汉 ， 虽 然 名 称 不 同 ,但 是 内 容 剖 十 相 同 的 。 许 多 人 认 
为 这 些 原则 古 面向 对 象 程序 设计 的 重要 原则 1 。 


1 三 原则 虽然 是 非常 重要 的 ， 但 是 在 面向 对 象 编程 中 并 不 是 必 不 可 少 的 。 比 如 有 不 支持 继承 
的 面向 对 象 编程 语言 (JavaScript) 和 不 支持 封装 的 面向 对 象 编程 语言 (CLOS,，Common Lisp 


Object System) 。 


2.2.1 面向 对 象 的 历史 


新 接触 面 回 对 象 概念 的 人 可 能 觉得 它 难以 理解 。 事 实 上 ， 对 于 从 事 面 
回 对 象 编程 有 15 年 以 上 的 我 来 说 ， 有 很 多 概念 还 是 觉得 很 难 理解 。 


目 20 世纪 60 年 代 末 至 今 ， 面 向 对 象 的 思想 已 经 经 过 了 40 多 年 的 发 
展 。 独 一 看 这 些 一 步 步 积 素 起 来 的 成 采 ， 你 可 能 会 觉得 数量 庞大 。 然 
而 ， 如 有 果 治 着 面 问 对 象 的 发 展 历 史 一 步 步 开 始 去 学 习 的 话 ， 那 么 看 起 
来 很 难 的 面 问 对 象 概念 ， 实 际 上 比 我 们 想象 中 的 要 简单 。 


目 先 ， 我 们 来 回顾 一 下 面向 对 象 的 发 展 历史 。 你 不 必 担 心 讲 解 历史 过 
程 中 提 到 的 一 些 陌生 的 词语 ， 后 面 会 详细 说 明 。 


Simula 的 “发 明 ” 


如 前 所 述 ， 面 向 对 象 编程 思想 起 源 于 瑞典 20 世 纪 60 年 代 后 期 发 展 起 来 
的 模拟 编程 语言 Simula。 以 前 ， 表 示 模 拟 对 象 的 数据 和 实际 的 模拟 方 
法 是 互相 独立 的 ， 需 要 分 别管 理 ， 编 程 时 需要 把 两 者 正确 地 结合 起 
来 ， 程 序 员 的 负担 是 很 重 的 。 因 此 ，Simula 引入 了 数据 和 处 理 数据 的 
方法 目 动 结合 的 抽象 数据 类 型 。 随 后 ， 又 增加 了 类 和 继承 的 功能 。 其 
人 
已 经 具 


Smalltalk 的 发 展 


Simula 的 面向 对 象 编程 思想 被 广泛 传播 。 从 20 世纪 70 年 代 到 80 年 
代 初 ， 美 国 施乐 公司 的 帕 洛 阿尔 托 研 究 中 心 开 发 了 Smalltalk 编程 语 
言 。 当 时 的 开发 宗旨 是 “让 儿 重 也 可 以 使 用 ”。 在 Lisp 和 LOGO 设计 思 
想 的 基础 上 ，Smalltalk 又 吸取 了 Simula 的 面向 对 象 思 想 ， 日 独 具 一 
格 。 不 仅 如 此 ， 它 还 有 一 个 很 好 的 图 形 用 户 界 面 。 这 个 创新 的 语言 使 
得 世人 开始 了 解 面向 对 象 编程 的 概念 。 


Lisp 的 发 展 


另外 ， 位 于 美国 东海 岸 的 麻 省 理工 学 院 及 其 周边 地 区 ， 用 Lisp 语言 发 
展 了 面向 对 象 的 思想 。Lisp 和 FORTRAN、COBOL 语言 一 样 ， 都 是 最 


古老 的 语言 。 与 同时 期 登场 的 其 他 语言 不 同 ， oun 语言 具有 非常 浓厚 
的 数学 背景 ， 所 以 它 本 号 具有 很 强 的 扩展 功能 。 面 癌 对 象 的 特性 也 是 
Lisp 所 拥有 的 。 因 此 ， 编 程 语言 规格 的 变更 、 功 能 的 扩展 和 实验 都 很 
容易 进行 ， 由 此 产生 了 很 多 创新 的 想法 。 多 重 继承 、 混 合式 和 多 重 方 
~ 许多 重要 的 面 回 对 象 的 概念 都 是 从 Lisp 的 面 问 对 象 功能 中 诞生 


和 C 语 言 的 相遇 


20 世纪 80 年 代 ， 记 究 上 很 多 地 廊 部 在 研究 面向 对 象 编程 思想 ° AT& 
T 公 司 的 贝尔 实验 室 在 C 语言 中 追加 了 面 同 对 象 的 功能 ， 开 发 出 了 “C 
with Class” 编 程 语言 。 开 发 者 是 Bjarne Stroustrup， 他 来 自 距 离 Simula 
的 起 源 地 瑞典 不 远 的 丹麦 。 在 英国 剑桥 大 学 的 时 候 ， _Stroustrup 下 使 用 
Simula 语言 。 加 入 贝尔 实验 室 以 后 ， 为 了 能 够 把 C 语言 的 高 效率 和 
Simula 的 面 同 对 象 功能 结合 起 来 ， 他 开发 了 “C with Class” 编 程 语言 。 


因为 当时 Simula 的 处 理 速 度 是 非常 缓慢 的 ， 所 以 在 他 的 研究 领域 中 不 

能 使 用 。 “C with Class” 语 言 驳 污 变 成 了 后 来 的 C++ 语言 百 。 从 这 些 ' 表 风 

来 看 ，C++ 是 直接 受到 了 Simula 语言 的 影响 ， 而 没有 受到 Smalltalk 多 
影响 。 


Java 的 诞生 


强调 与 C 语言 兼容 的 C++ 语言 ， 能 够 写 低 级 的 方法 ， 这 是 有 利 有 弊 
的 。 为 了 死 服 低级 语言 和 缺 后 ， 在 20 世纪 90 年 代 Java 饥 程 语 言 应 运 
而 生 。 Java 语言 放弃 了 和 C 语言 的 兼容 性 ， 并 增加 了 Lisp 语言 中 一 些 
好 的 功能 。 此 外 ， 通 过 Java 虚拟 机 (JVM) ，Java 程序 可 以 不 用 重新 
编译 而 在 所 有 操作 系 统 中 运行 。 


现在 ，Java 作为 在 20 世纪 90 年 代 诞生 的 最 成 功 的 语言 ， 被 全 世界 广 
泛 应 用 


面 回 对 象 编程 方法 和 编程 语言 一 样 在 不 断 地 演变 发 展 。 到 了 20 世纪 
90 年 代 ， 面 回 对 象 的 方法 在 软件 设计 和 分 析 等 软件 开发 的 上 层 领 域 中 
流行 起 来 。1994 年 ， 当 时 主要 的 面向 对 象 分 析 和 设计 方法 Booth、 
OMT (Object Modeling Technique) 以 及 OOSE (Object Oriented 
Software Engineering) 的 发 明 人 Grady Booch、Jim Rumbaugh 和 Ivar 
Jacobson 合作 设计 了 UML (Unified Modeling Language) 。UML 是 用 


来 描述 通过 面 问 对 象 方法 设计 的 软件 模型 的 图 示 方 法 ， 也 是 利用 这 种 
记 法 进行 分 析 和 设计 的 一 种 方法 论 。 


UML 提供 了 很 多 设计 高 可 靠 性 软件 的 面 癌 对 象 设计 方法 。 但 是 ， 
UML 整体 上 很 复杂 ， 用 到 的 概念 很 多 ， 会 让 初学 者 觉得 很 难 掌握 。 
面向 对 象 的 基本 概念 的 建立 ， 众 生 了 各 种 编程 语言 。 

2.2.2 复杂 性 是 面向 对 象 的 敌人 

我 们 再 回 到 面向 对 象 的 重要 原则 ， 来 了 解 真 正 的 面 同 对 象 编 程 。 


软件 开发 的 最 大 履 人 是 复杂 性 。 人 类 的 大 脑 无 法 做 太 复杂 的 处 理 ， 记 
忆 力 和 理解 力也 是 有 限 的 。 


计算 机 上 运行 的 软件 却 没有 这 样 的 限制 ， 无 论 多 么 复杂 的 计算 机 软 
件 ， 无 论 有 多 少数 据 ， 无 论 需 要 多 长 时 间 ， 计 算 机 都 可 以 处 理 。 随 着 
越 来 越 多 的 数据 要 用 计算 机 来 处 理 ， 对 软件 的 要 求 也 越 来 越 高 ， 软 件 
也 变 得 越 来 越 复 洒 。 


虽然 计算 机 的 性 能 年 年 在 提高 ， 但 它 的 处 理 能 力 终究 是 有 限 的 ， 而 人 
类 理解 力 的 局 限 性 给 软件 生产 力 市 来 的 限制 则 更 大 。 在 计算 机 性 能 这 
么 高 的 今天 ， 人 们 为 了 找到 迅速 开发 大 规模 复杂 软件 的 方法 ， 哪 介 牺 
牲 一 些 性 能 也 在 所 不 惜 。 


2.2.3 ”结构 化 编程 
最 初 对 这 种 复杂 的 软件 开发 提出 挑战 的 是 “结构 化 编程 >。 结构 化 编程 


的 基本 思想 是 有 序 地 控制 流程 ， 即 把 程序 的 执行 顺序 限制 为 顺序 、 分 
文 和 循环 这 3 种 ， 把 共通 的 处 理 归 结 为 例 程 ( 见 图 2-7) 。 


> I CT 


:和 有 本 > 
人 
东 件 不 成 立时 ”G0 一 
返回 条 件 判 断 
命令 1 


Rm > 


图 2-7 顺序 、 分 支 和 循环 的 处 理 方法 


在 结构 化 编程 出 现 之 前 ， 可 以 用 goto 语句 来 控制 程序 的 流程 ， 执 行 
流 可 以 转移 到 任何 地 方 。 而 结构 化 编程 用 如 上 文 所 述 的 3 种 语句 控制 
程序 的 流程 。 这 样 可 以 降低 程序 流程 的 复杂 性 ， 此 外 ， 还 引入 了 较为 
抽象 的 处 理 块 〈 例 程 ) 的 概念 ， 也 就 是 把 基本 上 相同 的 处 理 抽 象 成 例 
程 ， 其 中 不 同 的 地 方 由 外 部 传递 进来 的 参数 来 对 应 。 


二 征 人 类 处 理 复杂 软件 的 非常 有 效 的 
潜 。 


通过 限制 大 大 降低 了 程序 的 目 由 度 ， 减 少 了 各 种 组 合 ， 使 得 程序 不 至 
于 太 过 复杂 。 但 是 如 有 果 由 于 降低 了 程序 的 自由 度 而 导致 程序 的 实现 能 
力 低下 ， 那 是 我 们 所 不 层 意 看 到 的 。 而 结构 化 编程 的 顺序 、 分 文 和 循 
环 可 以 实现 一 切 算 法 ， 虽然 降 低 了 程序 的 复 洒 性 和 灵活 性 ， 但 是 程序 
的 实现 能 力 并 没有 降低 。 

抽象 化 的 目的 是 我 们 只 需要 知道 过 程 的 名 字 ， 而 并 不 需要 知道 过 程 的 
内 部 细节 ， 因 此 它 也 被 称 为 < 黑 盒 化 ”。 我 们 只 需要 知道 < 凌 盒 子 " 的 和 输 
入 和 输出 ， 而 过 程 的 细节 十 隐藏 的 *。 


2 计算 器 是 黑 盒子 的 一 个 例子 。 输 入 数字 后 ， 计 算 结果 在 液晶 屏 上 显示 出 来 ， 而 内 部 是 怎样 
计算 的 我 们 并 不 知道 。 也 有 可 能 是 里 面 的 小 人 在 打算 盘 哦 。 


例如 ， 如 果 你 知道 了 例 程 的 输入 和 输出 ， 那 么 即使 不 知道 处 理 的 内 部 
细 市 也 可 以 利用 这 个 例 程 。 建 立 一 个 由 黑人 金子 组 合 起 来 的 系统 ， 复 灯 
ey ni 5 


如 果 把 黑金 子 内 的 处 理 也 考虑 上 ， 整 个 系统 的 复杂 性 并 没有 改变 。 但 
古 如 果 不 考 虚 黑 盒子 内 部 的 处 理 ， 系 统 复杂 性 束 可 以 降低 到 人 类 的 可 
控 范 围 内 。 此 外 ， 黑 盒子 内 部 的 处 理 无 论 怎么 变化 ， 如 果 输 入 和 输出 
不 发 生变 化 ， 那 么 驶 对 外 部 没有 影响 ， 所 以 这 种 扩展 特性 是 我 们 非常 
希望 获得 的 。 


针对 程序 控制 流 的 复杂 问题 ， 结 构 化 编程 采用 了 限制 和 抽象 化 的 武 姻 
解决 问题 。 结 果 证 明 ， 结 构 化 程序 设计 是 成 功 的 ， 并 且 这 种 方法 已 经 
有 了 稳固 的 基础 。 现 在 几乎 所 有 的 编程 语言 都 文 持 结构 化 编程 ， 结 构 
化 编程 已 经 成 为 了 编程 的 基本 铝 识 。 


2.2.4 ”数据 抽象 化 
然而 ， 程 序 里 面 不 仅 包括 控制 结构 ， 还 包括 要 处 理 的 数据 。 结 构 化 编 


程 虽然 降低 了 程序 流程 的 复杂 性 ， 但 是 随 着 处 理 数据 的 增加 ， 程 序 的 
$0 


前 面 已 经 介绍 过 了 ， 世 界 上 第 一 个 面 癌 对 象 的 编程 语言 古 Simula。 随 
着 仿真 处 理 的 数据 类 型 越 来 越 多 ， 分 别管 理 程序 处 理 内 容 和 处 理 数 据 
对 象 所 市 来 的 复 洒 性 也 越 来 越 蜗 。 为 了 得 到 正确 的 结果 ， 必 须 体 持 处 
理 和 数据 的 一 致 性 ， 这 在 结构 化 编程 中 是 非常 困难 的 。 解 决 这 一 问题 
的 方案 融和 数据 抽象 技术 。 


数据 抽象 是 数据 和 人 处 理 方法 的 结合 。 对 数据 内 容 的 处 理 和 操作 ， 必 须 
TR 


举 一 个 栈 的 例子 。 栈 是 爷 入 后 出 的 数据 存储 结构 3 。 比 如 往 快 餐 托 到 
中 三 加 地 抬 放 食品 ( 见 图 2-8) 。 栈 只 有 两 种 操作 方法 : 入 栈 
(push) ， 向 栈 中 放 入 数据 ， 出 栈 \pop) ， 把 最 后 放 入 的 数据 拿 出 


oO 


3 队列 是 和 栈 相似 的 数据 结构 ， 是 先入 先 出 的 。 


栈 的 顶端 


图 2-8 栈 的 构造 


我 们 用 Ruby 来 写 这 个 栈 4。 图 2-9 中 使 用 了 抽象 的 数据 结构 ， 栈 的 操 
作 只 有 push 和 pop。 别 的 方法 十 无 法 访问 栈 内 数据 的 。 图 2-10 中 则 
没有 使 用 抽象 的 数据 结构 ， 而 征用 数组 索引 来 实现 栈 的 操作 。 和 图 2- 
9 相 比 ， 哪 个 更 简单 是 显而易见 的 。 


4 在 标准 的 Ruby 中 没有 定义 栈 (stack) 这 种 数据 结构 。 如 果 要 执行 图 2-9 所 示 的 程序 ， 那 么 
图 2-11 所 示 的 stack 定义 是 必要 的 。 图 2-9 所 示 只 是 作为 一 个 例子 来 说 明 抽 象 数据 的 操作 方 
法 。 


# 用 Stack.new 生成 新 的 栈 
stack = Stack .new 

# 对 stack 进行 push 操作 
stack.push(5) 
stack.push(9) 


# 用 stack 的 pop 方法 取出 数 ， 
puts stack.pop() # 显 示 9 
puts stack.pop() # 显 示 5 


图 2-9 用 Ruby 写 的 栈 的 操作 


# 用 数组 实现 栈 的 操作 


stack = [{] 


# 数组 的 先头 位 置 
sp= 0 


stack[sp] = 5 


stack[sp] = 9 
sp += 1 
sp -= 1 
puts stack[sp] 
sp -= 1 


puts stack[sp] 


图 2-10 用 数组 实现 图 2-9 的 程序 


图 2-9 的 程序 有 几 点 优 于 图 2-10 的 程序 。 第 一 ， 图 2-10 的 程序 暴露 
了 数组 和 下 标 ” 这 一 内 部 构造 ， 而 图 2-9 则 把 内 部 构造 隐藏 到 了 
Stack 这 一 数据 结构 里 。 利 用 图 2-9 的 方法 ， 使 用 栈 的 人 并 不 需要 关 
心 栈 是 如 何 实现 的 ， 即 使 将 来 因为 什么 事情 而 改变 了 栈 的 内 部 实现 方 
式 ， 也 不 需要 对 使 用 栈 的 程序 做 任何 修改 。 

在 这 一 点 上 ， 图 2-10 的 程序 就 不 一 样 了 。 如 果 其 内 部 实现 发 生变 化 ， 
也 必须 对 自己 的 程序 进行 相应 的 修改 。 因 为 所 有 利用 栈 的 地 方 都 需要 
修改 ， 程 序 规 模 越 大 ， 修 改 的 工作 量 也 就 越 大 。 所 以 有 时 候 即 使 明知 
道 能 够 改善 程序 ， 也 会 因为 工作 量 太 大 而 不 愿意 改变 栈 的 实现 方 

式 。“ 利 于 变化 ”是 抽象 数据 的 巨大 优点 。 

另外 一 点 是 图 2-9 所 示 的 方法 很 容易 理解 。 比 如 数据 的 push 操作 ， 
在 图 2-9 中 是 : 


stack.push(5) 


在 图 2-10 中 是 : 


stack[sp]=5 
sp += 1 


图 2-9 中 可 以 直接 表现 push 这 个 操作 。 对 数据 进行 操作 的 一 方 ， 并 
不 需要 知道 图 2-10 中 的 处 理 细 玉 ， 而 只 对 “要 做 什么 " 感 兴趣 。 所 以 隐 
藏 了 处 理 细节 的 程序 会 变 得 更 加 明确 ， 实 现 目 的 也 更 清晰 。 


不 仅 是 操作 方法 容易 理解 ， 抽 象 数据 也 是 能 够 对 特定 的 操作 产生 反应 
的 窟 能 数据 。 使 用 抽象 数据 可 以 更 好 地 模拟 现实 世界 中 各 种 活生生 的 


实体 


有 了 数据 抽象 ， 程 序 处 理 的 数据 吏 不 再 是 单纯 的 数值 或 文字 这 些 概念 
性 的 东西 ， 而 变 成 了 人 脑 容 易 想象 的 具体 事物 。 而 代码 的 “抽象 化 > 则 
征 把 想象 的 过 程 “ 具 体 化 "了 。 这 种 智能 数据 可 以 模拟 现实 世界 中 的 实 
体 ， 因 而 被 称 作 “ 对 象 "， 面 问 对 象 编程 也 由 此 得 名 。 


2.2.5 ”雏形 


出 现在 程序 中 的 对 象 ， 通 党 具有 相同 的 动作 。 以 交通 仿真 程序 为 例 ， 
程序 中 有 表示 车 和 信和 号 的 对 象 。 虽 然 同 样 的 对 象 具 有 相同 的 性 质 ， 但 
征 位 置 、 颜 色 等 状态 各 有 不 同 。 


从 抽象 的 原则 来 说 ， 多 个 相同 事物 出 现时 ， 应 该 组 合 在 一 起 。 这 就 是 
DRY 原则 〈 即 Don't Repeat Yourself) 。 


我 们 已 经 看 到 ， 程 序 的 重复 是 一 切 问 题 的 根源 。 重 复 的 程序 在 需要 修 
改 的 时 候 ， 所 涉及 的 范围 惑 会 更 广 ， 费 用 也 束 更 高 。 当 多 个 重复 的 地 
方 都 需要 修改 时 ， 哪 伯 是 漏 掉 其 中 之 一 ， 程 序 也 将 无 法 正常 工作 。 所 
以 重复 降低 了 程序 的 可 靠 性 。 


进一步 说 ， 重 复 的 程序 是 见 余 的 。 人 们 解读 程序 、 理 解 程序 意图 的 成 
本 也 会 增加 。 让 我 们 再 看 看 代码 重复 的 图 2-10 和 没有 代码 重复 的 图 2- 
9， 显 然 图 2-9 的 程序 更 容易 理解 。 请 记 住 ， 计 算 机 是 不 管 程序 是 否 难 
以 阅读 ， 有 是否 有 重复 的 。 然 而 ， 开 发 人 员 要 阅读 和 理解 大 量 的 程序 ， 
所 以 程序 的 可 读 性 直接 关系 到 生产 力 。 重 复元 长 的 程序 会 降低 生产 
力 。 复 制 和 粘贴 程序 会 导致 重复 ， 应 该 尽量 避免 。 


让 我 们 再 回 到 对 象 的 话题 上 。 同 样 的 对 象 大 量 存在 的 时 候 ， 为 了 避免 
重复 ， 可 以 采用 两 种 方法 来 管理 对 象 。 


一 种 是 原型 。 用 原始 对 象 的 副本 来 作为 新 的 相同 的 对 象 。Self、Io 等 
编程 语言 采用 了 原型 。 有 名 的 编程 语言 用 原型 的 比较 少 ， 很 意外 的 
A JavaScript 也 是 用 的 原型 。 


男 外 一 种 是 模板 。 比 方 说 我 们 要 浇注 东西 的 时 候 ， 往 模板 里 注入 液体 
材料 束 能 浇注 出 相同 的 东西 。 这 种 模板 在 面向 对 象 编程 语言 中 称 为 类 
(class) 。 同样 类 型 的 对 象 分 别 属于 同样 的 类 ， 操 作 方 法 和 属性 可 以 


式 诗 * 


跟 原 型 不 同 ， 面 向 对 象 编程 语言 的 类 和 对 象 有 明显 区 别 ， 就 像 做 点 心 
的 模具 和 点 心 有 区 别 一 样 ， 整 数 的 类 和 1 这 个 对 象 、 狗 类 和 名 字 有 是 

poochy 这 条 狗 也 都 吓 有 区 别 的。 为 了 清晰 地 表明 类 和 对 象 的 不 同 ， 对 
ee 


在 Ruby 面向 对 象 编程 语言 ? 中， 类 用 关键 字 class 来 声明 。 图 2-9 
中 的 栈 ， 就 是 Stack 类 。Stack 类 的 定义 如 图 2-11 所 示 。 


5 Ruby 也 可 以 用 于 原型 (prototype) 面向 对 象 编程 。 


CT 


class Stack 
def initialize 
@stack = [] 
@sp =0 
end 


def push(value) 
@stack[@sp] = value 
@sp += 1 

end 


def pop 
return nil if @sp == 0 
@sp -= 1 
return @stack[@sp] 
end 
end 


图 2-11 Stack 类 的 实现 


class 后 面 是 类 名 。 在 图 2-11 中 ，class 后 面 就 是 Stack 。Ruby 
规定 类 名 称 的 第 一 个 字母 必须 大 写 。 类 定义 的 最 后 用 end 。 在 
Stack 这 个 类 中 ， 定 义 了 initialize、push、pop 这 三 个 方法 。 


2-9 的 程序 第 二 行 调用 了 initialize 这 个 初始 化 方法 。 每 次 生成 
Stack 对 象 的 时 候 ， 都 要 调用 initialize 这 个 初始 化 方法 。 


stack = Stack.new 


在 图 2-11 的 初始 化 方法 中 ，@stack (实际 保存 栈 数据 的 数组 ， 和 
@sp (数组 下 标 ) 这 两 个 变量 被 初始 化 。 在 Ruby 中 以 “@” 开 头 的 变量 
用 来 保存 每 个 对 象 中 分 别 独立 存在 的 值 ， 也 称 为 实例 变量 。 如 采 你 创 
建 了 多 个 栈 对 象 ， 那 么 每 个 对 象 里 面 都 分 别 有 目 己 独 立 的 @stack 和 


@sp 这 两 个 变量 。 


push 和 pop 是 操作 栈 的 方法 。 在 图 2-10 中 不 过 是 罗列 了 对 栈 的 操作 
步骤 要 了 。 


2-11 的 initialize 是 对 类 定义 的 操作 对 象 的 内 部 数据 进行 初始 
化 罗 帮 法 ”六 


为 了 简化 说 明 ， 图 2-11 的 例子 中 没有 检查 数值 的 范围 。 事 实 上 ， 程 序 


中 需要 检查 下 标 是 否 为 负 值 等 。 
2.2.6” 找 出 相似 的 部 分 来 继承 


随 看 软件 规模 的 扩大 ， 用 到 的 类 的 个 数 也 随 之 增加 ， 其 中 也 会 有 很 多 
性 质 相 似 的 类 。 这 吏 违 育 了 我 们 之 前 强调 多 次 的 DRY 原则。 程序 会 

变 得 重复 而 且 不 容易 理解 。 修 改 程序 的 代价 也 会 变 高 ， 生 产 力 则 会 降 
低 。 所 以 ， 如 采 有 把 这 些 相似 的 部 分 汇 忌 到 一 起 的 方法 束 好 了 。 


继承 殉 是 这 种 方法 。 具 体 说 来 ， 继 有 承 殉 是 在 保持 既 有 类 的 性 质 的 基础 
上 而 生成 新 类 的 方法 。 原 来 的 类 称 为 父 类 ， 新 生成 的 类 称 为 子 类 。 子 
类 继承 父 类 所 有 的 方法 ， 如 末 需 要 也 可 以 增加 新 的 方法 。 了 于 类 也 可 以 
根据 需要 重 写 从 父 类 继承 的 方法 。 


2-12 演示 了 FixedStack 这 个 类 ， 它 继承 了 图 2-11 中 的 Stack 
类 。 类 名 后 面 的 *<Stack ” 指 的 是 父 类 。 它 说 明了 FixedStack 是 
Stack 的 子 类 ， 继 承 了 Stack 类 的 方法 和 属性 。 


class FixedStack < Stack 
def initialize(l1imit) 
super() 
@l1imit = limit 
end 


def push(val) 
If @sp >= @l1imit 
puts "over limit" 


return 
end 
super (val) 
end 


def top 
return @stack[-1] 
end 
end 


图 2-12 用 类 来 继承 图 2-11 中 类 的 例子 


FixedStack 类 重 写 了 initialize 和 push 这 两 个 方法 。 这 两 个 
方法 都 调用 了 super 方法 ， 这 表明 在 子 类 的 方法 中 也 调用 了 父 类 的 具 
有 相同 名 字 的 方法 。 比 如 在 FixedStack 类 的 ijnitialize 方法 中 
也 调用 父 类 Stack 的 initialize 方法 。 利 用 这 种 方式 ， 我 们 可 以 
只 改变 子 类 方法 的 动作 ， 而 不 会 对 父 类 方法 产生 任何 影响 。 


initialize 方法 在 对 象 初始 化 时 被 调用 。 如 果 像 下 面 的 程序 一 样 ， 
在 调用 initialize 方法 时 传 入 参数 10， 那 么 栈 对 象 的 实例 变量 
@1lLimit 就 会 被 设置 为 10， 它 是 栈 中 元 素 个 数 的 上 限 。 


stack = FixedStack.new(10) 


在 图 2-12 中 ， 程 序 末 尾 退 加 了 并 不 把 栈 顶 元 素 弹 出 栈 而 只 是 引用 栈 顶 
元 于 的 方法 top 。top 在 父 类 中 并 没有 定义 ， 这 是 一 个 在 子 类 中 人 退 加 


方法 的 例子 。 


像 图 2-12 这 样 ， 利 用 现 有 的 类 派生 新 类 的 方法 称 为 “差分 编程 

法 ”(difference programming) 。 通 过 抽象 把 共通 的 部 分 提取 出 来 生成 
父 类 ， 与 利用 已 有 的 类 来 生成 新 类 ， 是 同一 方法 的 两 种 不 同 表现 形 

式 。 前 者 称 为 目 确 同上 法 ， 后 者 称 为 目 顶 癌 下 法 。 


Ruby 跟 多 数 编程 语言 一 样 ， 一 个 子 类 只 能 有 一 个 父 类 ， 这 称 为 “单一 
0 从 目 顶 向 下 的 方法 来 看 ， 通 过 扩展 一 个 类 来 生成 新 的 类 也 是 很 


但 是 ， 从 用 目 故 同上 的 方法 提取 共通 部 分 的 角度 来 看 ， 一 个 子 类 只 能 
有 一 个 父 类 的 限制 是 太 严 格 了 。 其 实 ， 在 C++、Lisp 等 编程 语言 中 ， 
一 个 子 类 可 以 有 多 个 父 类 ， 这 称 为 “多 重 继承 ”。 


2.3 多重 继 承 的 缺 扩 


上 一 节 讲 解 了 面向 对 象 编程 的 三 大 原则 (多 态 性 、 数 据 抽象 和 继承 ) 
中 的 继承 。 如 前 所 述 ， 人 人们 一 次 能 够 把 握 并 记忆 的 概念 十 有 限 的 ， 为 
解决 这 一 问题 ， 就 需要 用 到 抽出 类 中 相似 部 分 的 方法 (继承 ) 。 继 承 
苹 随 着 程序 的 结构 化 和 抽象 化 目 然 进化 而 来 的 一 种 方式 。 


但 最 后 一 句 话 严格 来 说 并 不 完全 正确 。 结 构 化 和 抽象 化 ， 意 味 着 把 共 
通 部 分 提取 出 来 生成 父 类 的 目 夺 向 上 的 方法 。 如 有 果 继 承 是 这 样 诞生 的 
话 ， 那 么 最 初 ， 有 多 个 父 类 的 多 重 继承 ! 就 会 成 为 主流 。 

1 单一 继承 (single inheritance) 是 指 只 能 有 一 个 父 类 (super class) 的 继承 ， 也 称 为 单纯 继 
承 。 有 多 个 父 类 的 继承 称 为 多 重 继承 (multiple inheritance) 。 


但 实际 上 ， 最 初 引入 继承 的 Simula 编程 语言 ， 只 提供 单一 继承 。 同 
样 ， 在 随后 的 很 多 面向 对 和 象 编程 语言 中 也 都 是 这 样 的 。 因 此 我 认为 ， 
继承 的 原本 目的 实际 上 有 是 逐步 细 化 。 


2.3.1 ”为 什么 需要 多 重 继承 


单一 继承 只 能 有 一 个 父 关 。 有 时 候 ， 大 家 会 觉得 这 样 的 制约 过 于 产 格 
了 。 在 现实 中 ， 一 个 公司 职员 同时 也 可 能 是 一 位 父亲 ， 一 个 程序 员 同 


时 也 可 能 是 一 位 作家 。 


正如 上 一 节 中 说 明 的 ， 如 果 把 继承 作为 抽 离 出 程序 的 共通 部 分 的 一 个 
抽象 化 手段 来 考虑 ， 那 么 从 一 个 类 中 抽象 化 (抽出 ) 的 部 分 只 能 有 

一 ， 这 个 假定 会 给 编程 带 来 很 大 的 限制 。 因 此 ， 多 重 继承 的 思想 就 这 
样 产生 了 。 单 一 继承 和 多 重 继承 的 区 别 仅 仅 是 父 类 的 数量 不 同 。 多 重 
继承 完全 是 单一 继承 的 超 集 ， 可 以 简单 地 看 做 是 单一 继承 的 一 个 自然 
延伸 (图 2-13) 


海洋 生物 / ”哺乳 类 


图 2-13 单一 继承 和 多 重 继承 的 区 别 。 在 多 重 继 承 中 ， 每 个 类 可 以 有 多 个 父 类 


可 以 使 用 多 重 继承 的 编程 语言 ， 不 受 单 一 继承 的 不 自然 的 限制 。 例 
en 
很 不 目 然 。 


Smalltalk 语 言 中 定义 输入 输出 的 Stream 类 有 3 个 子 类 。 其 中 ， 
ReadStreanm 是 输入 类 ，WriteStrean 是 输出 类 ， 
ReadwriteStream 是 输入 输出 类 。ReadwriteStream 具有 
ReadStream 和 WriteStream 两 个 类 的 功能 ， 但 是 由 于 Smalltalk 
是 单一 继承 的 ， 所 以 ReadwriteStreanm 不 能 同时 从 这 两 个 类 继承 。 


结果 是 ReadwriteStreanm 继承 了 WriteStream 这 个 类 ， 然 后 再 
把 ReadStreanm 的 程序 复制 过 来 ， 从 而 实现 ReadStream 的 功能 

(参见 图 2-14) 。 从 程序 维护 的 观点 来 看 ， 程 序 复制 是 必须 禁止 的 。 
由 于 单一 继承 的 限制 而 导致 的 程序 复制 是 我 们 不 愿意 看 到 的 。 


ReadStream WriteSstream 


ReadWriteStream 


图 2-14 单一 继承 的 问题 。ReadWriteStream 只 能 有 一 个 父 类 ， 即 
WriteSstream ， 而 不 能 同时 继承 ReadStream 


从 另外 的 角度 来 看 ， 如 果 有 多 重 继承 的 话 ， 那 么 很 目 然 地 从 
ReadStream 和 WriteSstream 继承 就 可 以 生成 
ReadwriteStream (参见 图 2-15) 。 


Stream 


WriteStream 


ReadStream 


ReadWriteStream 


图 2-15 用 多 重 继承 的 解决 方法 。 和 图 2-14 不 同 ，ReadWriteStream 类 可 以 继承 两 个 父 类 


2.3.2 ”多重 继承 和 单一 继承 不 可 分 离 
经 过 对 多 重 继承 和 单一 继承 这 样 一 比较 ， 单 一 继承 的 特点 就 很 明显 
下 o 

。 继承 关系 单纯 
单一 继承 的 继承 关系 是 单纯 的 树 结构 ， 这 样 有 利 有 浆 。 类 之 间 的 关系 
单纯 就 不 会 发 生 混 乱 ， 实 现 起 来 也 比较 简单 。 但 是 ， 如 刚才 的 
Smalltalk 的 Stream 一 样 ， 不 能 通过 继承 关系 来 共享 程序 代码 ， 导 致 
了 最 后 要 复制 程序 。 


对 需要 指定 算式 和 变量 类 型 的 Java 这 样 的 静态 编程 语言 来 说 ， 单 一 继 
承 还 有 一 个 缺点 ， 我 们 将 在 后 面 说 明 。 


多 重 继承 的 特点 正好 相反 。 多重 继 承 有 以 下 两 个 优点 : 
。 很 目 然 地 做 到 了 单一 继承 的 扩展 ; 
。 可 以 继承 多 个 类 的 功能 。 


单一 继承 可 以 实现 的 功能 ， 多 重 继承 都 可 以 实现 。 但 是 ， 类 之 间 的 天 
系 会 变 得 复杂 。 这 征 多 重 继承 的 一 个 缺点 。 


2.3.3 goto 语句 和 多 重 继承 比较 相似 


前 面 我 们 讲 到 了 结构 化 编程 ， 说 明了 与 其 用 goto 语句 在 程序 中 跳 来 
跳 去 ， 还 不 如 用 分 支 或 者 循环 来 控制 程序 的 流程 。 分 支 和 循环 可 以 用 
goto 语句 来 实现 ， 单 纯 的 分 支 和 循环 组 合 起 来 不 能 直接 实现 的 控制 
也 可 以 用 goto 语句 来 实现 。goto 语句 具有 更 强 的 控制 力 。 


goto 语句 的 控制 能 力 虽 然 很 强 ， 但 是 我 们 也 不 推荐 使 用 。 因 为 用 
goto 语句 的 程序 不 是 一 目 了 然 的 ， 结 构 不 容易 理解 。 这 样 的 流程 复 
杂 的 程序 被 称 为 “意大利 面条 程序 ”。 


多 重 继承 也 存在 同样 的 问题 。 多 重 继承 是 单一 继承 的 扩展 ， 单 一 继承 
可 以 实现 的 功能 它 都 可 以 实现 。 用 单一 继承 不 能 实现 的 功能 ， 多 重 继 
承 也 可 以 实现 。 


但 是 ， 如 果 人 允许 从 多 个 类 继承 ， 类 的 关系 就 会 变 得 复杂 。 哪 个 类 继承 
了 哪个 类 的 功能 就 不 容易 理解 出现 问题 时 ， 是 哪个 类 导致 的 问题 也 
不 容易 判明 。 

这 样 混合 起 来 发 展 的 继承 称 为 “意大利 面条 继承 ”。 当 然 也 不 能 说 所 有 
的 多 重 继承 都 是 意大利 面条 继承 ， 但 是 使 用 时 格外 小 心 是 必要 的 。 多 
重 继承 会 导致 下 列 3 个 问题 。 


。 结构 复杂 化 


如 条 是 单一 继承 ， 一 个 类 的 父 类 是 什么 ， 父 类 的 父 类 又 是 什么 ， 
都 很 明确 ， 因 为 只 有 单一 的 继承 关系 。 然 而 如 条 是 多 重 继承 的 

话 ， 一 个 类 有 多 个 父 类 ， 这 些 父 类 又 有 目 己 的 父 类 ， 那 么 类 之 间 
的 关系 就 很 复 民 了 。 

优先 顺序 模糊 

具有 复杂 的 父 类 的 类 ， 它 们 的 优先 关系 一 下 子 很 难 辨认 清楚 。 比 
如 图 2-16 中 的 层次 关系 ，D 继承 父 类 方法 的 顺序 是 D、B、A、 


C、Object 还 是 D、B、C、A、Object， 或 者 是 其 他 的 顺序 ， 很 不 
明确 。 确 定 不 了 究竟 是 哪 一 个 。 相 比 之 下 ， 单 一 继承 中 类 的 优先 


顺序 是 明确 了 然 的 。 
Object | 


图 2-16 多重 继 承 的 优先 顺序 ， 方 法 调用 的 优先 顺序 不 明确 


功能 冲突 

因为 多 重 继 承 有 多 个 父 类 ， 所 以 当 不 同 父 类 中 有 相同 的 方法 时 整 
会 产生 冲突 。 比 如 在 图 2-16 中 ， 当 类 B 和 类 C 有 相同 的 方法 
时 ，D 继承 的 是 哪个 方法 束 不 明确 了 ， 因 为 存在 两 种 可 能 性 。 
2.3.4 解决 多 重 继承 的 问题 


上 面 说 明了 多 重 继承 的 问题 。 但 是 像 Smalltalk 的 Stream 的 例子 一 
样 ， 如 果 没 有 多 重 继承 的 话 ， 有 些 问题 还 真是 难以 解决 。 


再 进一步 看 ， 继 承 作 为 抽象 化 的 手段 ， 是 需要 实现 多 重 继承 功能 的 。 
在 抽取 类 的 共通 功能 的 时 候 ， 如 果 一 个 类 只 允许 抽出 一 个 功能 ， 那 么 
限制 惑 太 多 了 。 


既 想 利用 多 重 继承 的 优点 ， 又 要 回避 它 可 能 会 市 来 的 问题 ， 那 我 们 束 
需要 寻找 解决 问题 的 方法 。 结 构 化 编程 解决 goto 问题 的 原则 是 ， 用 
3 种 有 限制 功能 的 控制 语句 来 代替 目 由 度 太 高 的 goto 语句 。 这 3 种 
控制 语句 虽然 有 限制 ， 但 是 用 它们 的 组 合 可 以 实现 任意 算法 。 像 这 样 
引入 有 限制 的 多 重 继承 应 该 是 一 个 好 的 方法 。 


没 钳 ， 受 限制 的 多 重 继承 ， 这 个 解决 或 者 改善 多 重 继承 问题 的 方法 出 
现 了 ， 它 在 Java 编程 语言 中 被 称 为 接口 (interface) ， 在 Lisp 或 者 
Ruby 中 是 Mix-in。 下 面 我 们 看 看 这 些 功 能 是 如 何 克 服 上 述 缺 点 的 。 


2.3.5 ”静态 语言 和 动态 语言 的 区 别 
我 们 从 Java 的 接口 开始 说 起 。 


口 之 前 ， 首 先 讲 一 下 像 Java 这 样 的 面 同 对 象 编程 语言 和 多 重 
继 确 。 


从 大 的 方面 来 看 ， 编 程 语 言 可 以 分 为 静态 语言 和 动态 语言 两 种 。 像 
Java 这 样 规定 变量 和 算式 类 型 的 语言 称 为 静态 语言 。 


在 静态 语言 中 ， 不 能 给 变量 赋 不 同类 型 的 值 ， 因 为 那样 会 导致 编译 错 
误 。 由 于 在 编译 时 已 经 排除 了 类 型 不 匹配 的 错误 ， 所 以 在 执行 时 吏 不 
会 再 发 生 这 种 错误 了 。 不 通过 执行 束 可 以 发 现 类 型 不 匹配 这 样 的 错误 


征 静 态 语言 的 一 个 优点 。 


String str; 


str = "abc",; // 没 有 问题 
str = 2; // 编 译 错误 


面 同 对 象 编程 语言 大 都 用 类 来 指定 变量 类 型 。 上 面 例子 用 的 就 古 
String 这 个 类 。 但 是 在 使 用 面向 对 象 编程 语言 时 ， 像 上 面 的 例子 那 
样 ， 只 能 将 特定 类 的 对 象 《该 类 的 实例 ) 赋 给 变量 的 限制 的 确 又 太 严 


格 了 ， 因 为 这 样 的 话 吏 没 有 多 态 性 了 。 如 采 只 能 给 一 个 变量 赋值 同类 
对 象 ， 就 不 可 能 根据 对 象 的 类 自动 选择 合适 的 处 理 方式 (多 态 性 ) 。 


2.3.6 ”静态 语言 的 特点 


为 解决 这 一 问题 ， 静 仿 类 型 面 问 对 象 编程 语言 被 设计 成 这 样 ， 当 给 一 
个 类 变量 赋值 时 ， 既 可 以 用 这 个 类 的 对 象 来 赋值 ， 也 可 以 用 这 个 类 的 
于 类 对 象 来 赋值 。 这 样 号 可 以 实现 多 仿 性 。 


请 看 图 2-17 中 的 程序 。 这 是 一 个 用 Java 风格 的 静态 编程 语言 来 定义 
多 边 形 类 的 例子 。 最 后 出 现 的 poly 是 Polygon 类 的 一 个 变量 ， 所 
以 通过 poly 应 该 可 以 调用 Polygon 类 的 方法 (比如 “面积 ”方法 ) 。 
但 实际 上 ，poly 这 个 变量 的 值 是 Polygon 子 类 Rectangle 的 对 
象 ， 所 以 通过 poly 调用 的 就 是 Rectangle 的 方法 。 当 然 ， 如 果 调 
用 的 方法 只 在 Polygon 中 定义 而 没有 在 Rectangle 中 定义 ， 那 就 
会 调用 Polygon 中 定义 的 方法 。 


// 多 边 形 类 
class Polygon 


float 四 积 ( ){ . " .} 
int 顶点 数 (){.…} 


}; 
// 和 矩形 类 (继承 多 边 形 类 ) 


class Rentangle extends Polygon 


float 面积 ( ) (,..} // 再 定义 面积 计算 方法 
int 边 长 () {...}  ”// 和 矩形 类 特有 的 方法 


a 


Polygon poly; 
poly = new Rectange(); 


本 


图 2-17 ”父子 关系 的 类 的 示例 ， 变 量 不 能 调用 子 类 特有 的 “ 边 


但 是 反 过 来 说 ， 在 程序 中 poly 就 是 Polygon 类 的 变量 ， 即 使 它 的 
值 明 明 是 Rectangle 类 的 对 象 ， 用 poly 这 个 变量 也 不 能 调用 


"方法 


Rectangle 类 中 国有 的 方法 (比如 “ 边 长 ”) 。 

换个 说 法 就 是 ， 变 量 只 是 实际 赋值 对 象 的 一 个 小 观测 窗口 。 即 使 作为 
变量 值 的 对 象 有 很 多 方法 ， 但 在 使 用 这 个 变量 来 调用 方法 时 ， 只 能 调 
用 该 变量 类 型 “知道 ”的 方法 。 

如 果 变 量 poly 调用 “ 边 长 "方法 的 话 ， 静 态 语 言 就 会 毫 不 留情 地 报告 
编译 错误 。 

而 像 Ruby 这 样 没有 类 型 定义 的 动态 编程 语言 ， 是 在 程序 执行 时 才 来 
试 着 调 用 对 象 的 方法 ， 在 实际 对 象 没有 可 被 调用 的 方法 时 程序 才 会 报 


错 


2.3.7 ”动态 语言 的 特点 


动态 语言 多 许 调用 没有 继承 关系 的 方法 。 比 如 说 Ruby 中 定义 了 顺序 
取出 某 个 元 素 的 方法 each ， 数 组 和 哈 希 表 中 都 实现 了 这 个 方法 。 


obj.each {|x| 


print x 


在 静态 语言 中 只 能 调用 有 继承 关系 的 方法 ， 数 组 、 哈 希 表 和 字符 串 都 
能 调用 的 方法 ， 只 能 是 在 它们 共同 的 父 类 ( 念 怕 就 是 0bject ) 中 定 
A 

这 是 单一 继承 的 一 个 缺点 ， 以 后 会 详细 说 明 。 

在 静态 语言 中 ， 如 果 要 调用 类 层次 中 平行 类 的 方法 ， 那 么 必须 要 有 一 
个 可 以 表现 这 些 对 象 的 类 型 。 如 采 没 有 这 个 类 型 ， 可 调用 的 方法 是 非 
有 限 的 。 由 此 我 们 看 到 静 仿 语言 中 某 种 形式 的 多 重 继承 是 不 可 少 


2.3.8 ”静态 语言 和 动态 语言 的 比较 


静态 语言 和 动态 语言 各 有 利 郊 。 静 态 语言 即使 不 通过 执行 也 可 以 检查 
出 类 型 是 否 匹 配 * 在 一定 程度 上 ， 程 序 的 一 些 轴 名 错误 可 以 被 自 动 愉 
测 出 来 。 


但 是 ， 逐 个 来 定义 算式 和 变量 的 类 型 又 会 使 程序 变 得 见长 。 只 有 包含 
继承 关系 的 类 才 会 具有 多 态 性 。 相 对 于 动态 语言 来 说 ， 静 态 语 言 融 显 
得 限制 过 多 ， 灵 活性 差 。 

动态 语言 则 正好 相反 。 程 序 中 有 没有 错误 只 有 执行 了 才 会 知道 。 从 可 
靠 性 来 看 也 许 会 让 你 感觉 有 些 不 安 。 程 序 中 没有 类 型 定义 ， 这 样 程序 
会 变 得 很 简洁 ， 但 别人 看 起 来 或 许 会 有 点 难 懂 。 

但 是 ， 只 要 方法 名 一 样 ， 这 些 对 象 部 可 以 以 相同 的 方式 去 处 理 。 也 整 
古 说 不 需要 深层 次 探索 类 也 可 以 开发 程序 。 这 样 生产 效率 束 会 大 大 所 
二 2 。 


[本 


2 这 种 宽松 的 编程 机 制 称 为 Duck Typing (园子 类 型 检测 ) 。 


2.3.9 ”继承 的 两 种 含义 


像 Java 这 样 的 静态 面 回 对 象 编程 语言 的 变量 ， 具 有 限制 调用 方法 的 功 
由 。 但 实际 上 限制 的 是 类 有 什么 样 的 方法 ， 而 不 是 这 个 类 是 怎么 实现 


到 现在 为 止 我 们 一 直 都 在 讨论 继承 ， 其 实 继承 包含 两 种 含义 。 一 种 
0 也 束 是 说 这 个 类 都 支持 些 什 么 操作 ， 即 规格 的 
继 确 。 


全 “类 中 都 用 了 什么 数据 结构 和 什么 算法 ”， 也 就 是 实现 的 
继 确 。 


静态 语言 中 ， 这 两 者 的 区 别 很 重要 3 。Java 就 对 两 者 有 很 明确 的 区 
分 ， 实 现 的 继承 用 extends 来 继承 父 类 ， 规 格 的 继承 用 
ijmplements 来 指定 接口 。 


3 动态 编程 语言 中 ， 区 分 规格 的 继承 和 实现 的 继承 意义 不 大 。 即 使 没有 继承 关系 ， 方 法 也 可 
以 自由 地 调用 。 


而 接口 只 是 指定 对 象 的 外 观 (都 有 哪些 方 
法) 4 


Java 中 ， 只 人 允许 用 extends 继承 一 个 父 类 (实现 的 继承 ) ， 所 以 类 
的 继承 古 单一 的 。 类 的 关系 树 和 类 库 也 束 相 对 简单 。 


然而 ，implements 可 以 指定 多 个 接口 (规格 的 继承 ) 。 接 口 规定 了 
要 怎样 处 理 该 对 象 。 


举 个 具体 例子 说 明 一 下 。 我 们 来 看 看 图 2-18 中 
java.util.Collection 这 个 接口 的 类 层次 。 
java.util.Collection 是 定义 集合 的 接口 ， 有 2 个 接口 来 继承 
它 ， 分 别 是 按 顺 序 存放 元 素 的 java.util.List 和 没有 重复 元 素 的 
java.util.Set。 也 就 是 说 ， 实 现 了 java.util.List 或 
java.util.Set 的 对 象 也 可 以 被 当做 java.util.Collection 


来 处 理 。 


Java.util.Set 


Java.util .SortedSet 


图 2-18 ”接口 的 类 层次 ，java.util,.,Collection 的 例子 


接口 对 实现 没有 任何 限制 。 也 就 是 说 ， 接 口 可 以 由 跟 实现 的 继承 没有 
任何 关系 的 类 来 实现 。 也 就 是 说 ， 实 现 这 一 接口 的 类 可 以 继承 任何 其 
他 类 。 例 如 在 java.util 包 中 ， 作 为 java.util.List 的 实现 ， 
既 提 供用 数组 实现 的 java.util.ArrayList ， 也 提供 用 双向 链表 
实现 的 java.util.,LinkedList 。 这 些 类 都 直接 继承 0bject 


2.3.10 ”接口 的 缺点 


天 于 规格 继承 和 实现 继承 的 区 别 ， 很 久 以 前 吏 有 论文 进行 了 相关 的 探 
讨 。 但 在 众多 得 到 广泛 运用 的 编程 语言 中 ，Java 是 第 一 个 实现 这 种 功 
能 的 。 这 可 以 说 是 Java 对 多 重 继承 问题 的 解答 。 既 实现 了 静态 语言 的 
又 避 人 免 了 多 重 继 承 的 数据 构造 的 冲突 和 类 层次 的 复 洒 


但 是 ， 我 们 并 不 能 说 接口 是 解决 问题 的 完美 方案 。 接 口 也 有 不 能 共生 
实现 的 缺点 。 


为 了 解决 多 重 继承 的 问题 ， 人 们 允许 了 规格 的 多 重 继承 ， 但 是 还 是 不 
允许 实现 多 重 继承 。 和 针对 这 一 点 ， 我 们 不 太 好 再 说 什么 ， 但 作为 用 
户 ， 就 是 觉得 不 方便 。Java 推荐 的 解决 共享 实现 问题 的 方案 是 ， 在 单 
一 继承 的 前 提 下 ， 使 用 组 合 模式 (Composite) 来 调用 别 的 类 实现 的 共 
通 功能 。 

本 来 只 是 为 了 跨越 继承 层次 来 共享 代码 ， 现 在 却 需要 另外 生成 一 个 独 
并 对 象 ， 而 且 每 次 方法 调用 都 要 委派 给 那个 对 象 ， 这 实在 是 不 太 合 
理 ， 而 且 执 行 的 效率 也 不 高 。 


2.3.11 ”继承 实现 的 方法 


和 静态 语言 Java 不 同 ， 动 态 语 言 本 来 束 没 有 继承 规格 这 种 概念 。 动 态 
语言 需要 解决 的 吏 是 实现 的 多 重 继承 。 


动态 语言 是 怎么 解决 这 一 问题 的 呢 ? Lisp、Perl 和 Python 都 提供 了 多 
重 继承 功能 ， 这 样 束 不 存在 单一 继承 的 问题 了 。 在 这 些 语言 中 ， 使 用 
多 重 继承 时 请 千 万 要 小 心 。 


2.3.12 ”从 多 重 继承 变形 而 来 的 Mix-in 


Ruby 采用 了 和 Java 及 其 他 动态 语言 都 不 同 的 方法 。Ruby 用 Mix-in 
模块 来 解决 多 重 继承 的 问题 。 


Mix-in 是 降低 多 重 继承 复杂 性 的 一 个 技术 ， 最 初 古 在 Lisp 中 开始 使 
用 的 。 实 现 Mix-in 并 不 需要 编程 语言 提供 特别 的 功能 。Mix-in 技 
术 按 照 以 下 规则 来 限制 多 重 继承 。 


。 通 第 的 继承 用 单一 继承 

。 第 二 个 以 及 两 个 以 上 的 父 类 必须 是 Mix-in 的 抽象 类 
Mix-in 类 是 具有 以 下 特征 的 抽象 类 。 

。 不 能 单独 生成 实例 

。 不 能 继承 普通 类 
按照 这 个 原则 ， 类 的 层次 具有 和 单一 继承 一 样 的 树 结构 ， 同 时 又 可 以 
实现 功能 共享 。 实 现 功 能 共 至 的 方法 钙 把 共 至 的 功能 放 在 Mix-in 类 
里 面 ， 然 后 把 Mix-in 类 插入 到 树 结构 里 面 。 相 对 于 Java 用 接口 方法 
解决 规格 继承 的 问题 ， 那 么 Mix-in 可 以 说 是 解决 了 实现 继承 的 问 


题 。 


我 们 看 一 个 Mix-in 的 具体 例子 。 针 对 图 2-14、 图 2-15 中 的 
Smalltalk 的 Stream 问题 ， 图 2-19 显示 的 是 用 Mix-in 构建 的 一 个 
相同 结构 。 


Stream ) 


Readable Readable Writable Writable 


ReadStream EK ReadWriteStream 


图 2-19 用 Mix-in 实现 Stream 类 。 既 保持 了 类 层次 的 树 结构 ， 又 避免 了 复制 程序 


在 使 用 Mix-in 的 类 结构 中 ，Stream 只 有 3 个 子 类 。 在 此 基础 上 ， 
实际 的 输入 /输出 处 理 用 Readable (输入 ) 和 Writable (输出 ) 
这 两 个 Mix-in 类 来 实现 。3 个 子 类 通过 继承 Mix-in 类 而 分 别 实现 
了 输入 、 输 出 以 及 输入 和 输出 的 功能 。 

从 Streanm 的 类 层次 来 看 ， 父 类 是 Stream ， 负 责 输入 输出 的 是 


ReadStream 、WriteStream 和 ReadwriteStream 这 3 个 子 
类 ， 它 们 形成 了 非常 清晰 的 树 结构 。 层 次 很 简单 ， 没 有 变 成 网 状 结 


构 。 而 且 ， 由 于 Mix-in 类 实现 了 共通 功能 ， 从 而 避免 了 复制 程序 代 
码 。 


和 一 般 的 多 重 继 承 相 比 ，Mix-in 是 使 类 结构 变 得 简单 的 优秀 技术 。 
使 用 Mix-in 规则 来 限制 多 重 继承 ， 实 际 上 也 可 以 说 是 “驯服 ”了 多 重 
这 和 结构 化 编程 用 分 文 和 循环 来 限制 随意 的 goto 语句 是 一 样 的 。 
Mix-in 可 以 应 用 于 所 有 多 重 继承 编程 语言 中 ， 因 此 ， 掌 握 这 个 技术 
是 非常 有 必要 的 。 

2.3.13 “积极 支持 Mix-in 的 Ruby 


和 其 他 直接 引入 多 重 继承 的 编程 语言 相 比 ，Ruby 具有 直接 支持 Mix- 
in 的 特点 。 在 Ruby 中 ，Mix-in 的 单位 是 模块 (module) 。 模 块 具 
有 Mix-in 的 特性 ， 即 : 

。 不 能 生成 实例 ; 


。 不 能 从 普通 类 继承 。 


下 面 ， 我 们 看 看 在 Ruby 中 是 怎样 使 用 Mix-in 的 。 图 2-20 演示 了 
Ruby 是 怎样 实现 图 2-19 的 Stream 类 的 定义 的 。 


# Stream 类 ，0bject 的 子 类 
class Stream < Object 


# 这 里 的 定义 省 略 


end 


# 输入 用 Mix-in 
module Readable 


# 定义 输入 用 的 方法 


def read 


# 输出 用 Mix-in 
module Writable 


# 定义 输出 用 的 方法 


def write(str) 


end 


end 
# 输入 用 Stream，Stream 的 子 类 
class ReadStream < Stream 


# 继承 输入 用 的 Mix-in 
# Ruby 称 为 jnclude 
ijnclude Readable 


end 


# 输出 用 Stream，Stream 的 子 类 
class WriteStream < Stream 


# 继承 输出 用 Mix-in 
include Writable 


end 


# 输入 输出 用 Stream，Stream 的 子 类 
class ReadWriteStream < Stream 


# 继承 输入 用 Mix-in 
include Readable 


# 继承 输出 用 Mix-in 
include Writable 


end 


图 2-20 用 Ruby 实现 图 2-19 的 Stream 类 的 定义 


模块 用 关键 字 module 来 定义 ， 这 和 定义 类 用 关键 字 class 相似 ， 
但 是 不 能 指定 它 的 父 类 。 其 中 方法 等 的 定义 与 类 也 是 一 样 的 。 


在 类 中 通过 jnclude 可 以 继承 模块 中 的 方法 。 因 为 是 继承 而 不 是 复 
制 ， 所 以 当 类 中 有 同样 的 方法 时 ， 类 中 的 方 法 就 会 被 优先 执行 。 


关于 继承 的 各 方面 内 容 ， 我 们 都 总 结 到 了 表 2-2 中 。 
表 2-2 与 继承 有 关 的 内 容 


甩 
[以 有 多 个 父 类 ， 解 决 了 单一 继承 的 问题 (面向 对 象 的 编 


多 重 继承 语言 需要 某 种 形式 的 多 重 继承 ) ， 但 引入 了 单一 继承 所 


区 全 


季候 语言 区 
口 


言 只 有 实现 的 继承 

多 重 继承 的 问题 Java 的 接口 可 以 解决 
实现 多 重 继承 的 问题 
Mix-in 支持 多 重 继 承 的 语言 都 可 以 考虑 使 用 
Ruby 的 Mix-in 昌 制 利用 模块 ， 积 极 解决 多 重 继承 的 问题 


2.4 ”两 个 误解 
本 节 将 说 明 一 下 关于 对 面向 对 象 的 误解 。 


作为 一 个 很 早 束 接触 面向 对 象 编 程 语言 的 爱好 者 ， 我 写 过 关于 面 癌 对 
象 的 文章 ， 开 发 了 面 回 对 象 编 程 语 言 Ruby。 我 觉得 目 己 为 让 更 多 的 人 
都 能 够 熟悉 面 加 对 象 编程 语言 作出 了 贡献 。 我 骄傲 地 认为 ，Ruby 比 
Smalltalk 更 容易 上 手 ， 比 Java 和 C++ 更 容易 实现 面 问 对 象 编程 ， 从 而 
使 人 们 更 容易 理解 面向 对 象 的 概念 。 


但 是 ， 在 这 个 过 程 中 ， 由 于 我 的 不 成 熟 ， 可 能 会 加 深 一 些 人 对 面向 对 
象 的 误解 。 

在 这 些 误解 中 ， 有 两 个 是 我 很 在 意 的 。 

一 个 误解 是 ， 对 象 是 对 现实 世界 中 具体 物体 的 反映 ， 继 承 是 对 物体 分 
类 的 反映 。 这 个 观点 是 错误 的 。 我 之 前 写 过 的 《面向 对 象 编程 语言 


Ruby》! 中 也 用 哺乳 动物 ， 比 如 狗 和 鲸 等 举 过 例子 ， 可 能 也 加 深 了 这 
种 误解 。 


1 由 松本 行 弘 与 石 冢 主 树 合 著 ，ASCII 出 版 社 出 版 ，ISBN 为 4756132545 
(http://www.ascil.co.jp/books/detail/4-7561/4-7561-3254-5.html ) 。 


允 一 个 是 ， 多 重 继承 是 不 好 的 。 这 个 观点 也 和 是 错 误 的 。 这 一 误解 好 像 
还 大 都 与 “但 Mix-in 不 错 ” 的 误解 迭 和 在 一 起 。 

2 Mix-in 是 Ruby 中 可 以 利用 的 一 个 抽象 类 。 既 具有 单一 继承 的 方法 构成 和 优先 顺序 的 明确 
性 ， 又 可 以 像 多 重 继承 一 样 从 多 个 类 继承 。Mix-in 类 不 能 用 来 生成 实例 ， 也 不 能 继承 普通 
类 。 


在 解释 之 前 我 完 表 明 一 下 正确 的 观点 。 关 于 多 重 继承 ， 正 确 的 理解 应 
该 是 ， 如 果 用 得 不 好 束 会 出 问题 。 对 Mix-in 的 理解 应 该 是 ，Mix- 
in 只 不 过 是 实现 多 重 继承 的 一 个 近 巧 而 已 。 


Ruby 只 文 持 Mix-in 形式 的 多 重 继承 。 这 是 因为 在 当时 Mix-in 这 

种 技术 还 不 广为人知 ， 我 只 是 想 把 多 重 继承 作为 一 种 局 蒙 ， 并 没有 由 
低 多 重 继承 的 意思 。 这 可 能 造成 了 有 人 认为 多 重 继承 不 好 的 误解 。 曾 
有 一 个 著名 的 青年 学 者 因为 Ruby 的 原因 而 误 认 为 多 重 继承 和 Mix-in 
征 不 同 的 概念 。 这 也 十 我 要 反省 的 一 点 吧 。 


当然 ， 我 也 不 觉得 这 些 误 解 全 都 是 我 造成 的 。 但 是 ， 为 了 减少 这 些 误 
解 ， 下 面 再 讲解 一 下 面向 对 象 编 程 语言 和 多 重 继承 。 


2.4.1 面向 对 象 的 编程 


从 历史 上 看 ， 从 20 世纪 60 年 代 末期 到 70 年 代 ， 分 别 有 几 个 不 同 领域 
都 发 展 了 面向 对 象 的 思想 。 比 如 数据 抽象 的 研究 、 人 工 智能 领域 中 的 
知识 表现 (框架 模型 、 念 真 对 象 的 管理 方法 (Simula) 、 并 行 计算 
模型 (Actor) 以 及 在 结构 化 编程 思想 影响 下 而 产生 的 面向 对 象 方法 。 


框架 模型 是 现实 世界 的 模型 化 。 从 这 个 角度 来 看 ,“ 对 象 是 对 现实 世界 
中 具体 事物 的 反映 ”这 个 观点 并 没有 错 。 


但 古 不 管 过 去 怎样 ， 现 在 对 面向 对 象 最 好 的 理解 是 ， 面 向 对 象 编程 是 
结构 化 编程 的 延伸 。 


计算 机 最 初出 现时 ， 对 软件 的 要 求 是 非常 答 单 的 ， 只 是 把 人 完成 工作 
的 步骤 用 汇编 或 者 机 器 语言 表现 出 来 ， 编 程 并 不 是 很 难 的 工作 。 但 是 
随 着 软件 的 复杂 化 ， 开 发 就 变 得 越 来 越 复 杂 。 因 为 这 个 原因 ，Edsger 
A 
合 外 


3 Edsger Wybe Dijkstra 是 荷兰 的 计算 机 科学 家 。 他 提倡 结构 化 编程 ， 发 起 了 减少 使 用 goto 
语法 的 运动 。 他 也 是 解决 图 论 中 最 短路 径 问 题 的 Dijkstra 方法 的 研究 者 。 


1. 顺序 程序 按照 顺序 执行 。 


2. 循环 一 一 定 的 条 件 成 立时 程序 反复 执行 。 
3. 分支 条 件 满足 时 执行 A 处 理 ， 不 满足 时 执行 B 处 理 。 


结构 化 编程 基本 上 实现 了 控制 流程 的 结构 化 。 但 是 程序 流程 虽然 结构 
化 了 ， 要 处理 的 数据 却 并 没有 被 结构 化 4。 面 向 对 象 的 设计 方法 十 在 
结构 化 编程 对 控制 流程 实现 了 结构 化 后 ， 又 加 上 了 对 数据 的 结构 化 。 


4 20 世纪 70 年 代 ，Michael A. Jackson 在 开发 的 Jackson Structured Programming (JSP) 中 党 
试 了 数据 的 结构 化 。 但 是 ，JSP 中 的 结构 化 对 象 是 操作 数据 的 流程 而 不 是 数据 。 


众多 面 癌 对 象 的 编程 思想 虽 不 尽 一 致 ， 但 是 无 论 哪 种 面 同 对 象 编 程 语 
言 都 具有 以 下 的 共通 功能 。 


人 


2. 根据 不 同 的 数据 类 型 自动 选择 适当 的 方法 (多 态 性 ) 


可 以 这 样 认为 ， 以 上 两 点 在 面 问 对 象 编程 语言 中 征 必 不 可 少 的 。 因 为 
不 必 知 道内 部 结构 ， 所 以 可 以 把 数据 当做 法 盒 来 操作 。 即 使 将 来 数据 
结构 发 生变 化 ， 对 外 部 也 没有 影响 。 墨 盒 化 是 模块 化 的 基本 原则 ， 面 
问 对 象 编程 语言 将 每 一 类 数据 都 当做 黑 盒 处 理 。 


多 仿 性 是 根据 不 同 的 数据 类 型 而 目 动 选择 适当 的 处 理 。 这 束 不 需要 由 
人 来 根据 不 同 的 数据 类 型 对 处 理 进 行 分 文 了 。 如 有 果 没 有 多 仿 性 ， 那 么 


程序 中 区 会 到 处 都 是 分 文 处 理 。 这 也 殉 意 味 着 ， 变 更 和 追加 数据 类 型 
会 变 得 非常 困难 。 


在 面 回 对 象 分 析 和 面 癌 对 象 设计 领域 ， 有 些 观 点 还 不 尽 一 致 ， 但 如 采 
只 谈 面 向 对 象 编程 ， 就 可 以 认为 封装 和 多 态 是 提高 生产 率 的 技术 。 


结构 化 编程 通过 整理 数据 流 ， 提 高 了 程序 的 生产 效率 和 可 维护 性 。 同 
， 象 编程 通过 对 数据 结构 的 整理 ， 提 高 了 程序 的 生产 效率 和 
可 维护 性 。 


如 条 把 面 癌 对象 编程 看 做 是 对 结构 化 编程 的 扩展 ， 那 么 对 象征 否 是 现 

实 世界 中 具体 物体 的 反映 束 不 重要 了 。 实 际 上 ， 面 向 对 象 编程 语言 中 

的 对 象 ， 像 字符 串 、 数 组 和 范围 等 ， 很 多 都 没有 现实 世界 中 的 具体 物 

体 与 之 对 应 。 即 使 现实 世界 中 有 具体 物体 与 之 对 应 ， 对 象 也 只 是 摘 述 

现实 物体 某 一 侧面 的 抽象 概念 而 已 。 比 如 猫 有 颜色 、 血 统 等 很 多 属 

a 。 程序 只 是 处 理 
数据 的 。 


2.4.2 ”对 象 的 模板 = 类 


很 多 面向 对 象 编程 语言 都 具有 类 和 继承 这 两 个 基本 特性 。 利 用 这 两 个 
特性 ， 我 们 可 以 融 效 地 把 抽象 的 数据 通过 类 封 狼 起 来 。 


类 是 对 象 的 模板 ， 相 当 于 对 象 的 雏形 。 在 具有 类 功能 的 面 问 对 象 编程 
语言 ? 中 ， 对 象 都 是 由 作为 稚 形 的 类 来 生成 的 ， 对 象 的 性 质 也 是 由 类 
来 决定 的 。 通 过 类 可 以 把 同一 类 的 对 象 管理 起 来 。 

5 在 有 些 编程 语言 中 ， 类 并 不 是 必需 的 。 相 对 于 基于 类 的 面向 对 象 语言 来 说 ， 那 些 类 不 是 必 
需 的 面向 对 象 语言 称 为 基于 原型 的 语言 。 有 代表 性 的 基于 原型 的 语言 有 Self。Ajax 背后 的 
JavaScript 也 是 基于 原型 的 语言 。 


2-21 显示 的 是 Ruby 中 对 类 的 定义 。 我 一 般 情况 下 是 用 阿猫阿狗 来 
举例 的 ， 但 为 了 避免 误解 ， 这 次 用 数据 结构 的 栈 来 举例 。 


class Stack 


def initialize 
@data = [] 


end 

def push(x) 
@data.push(x) 

end 

def pop 
@data.pop 

end 

end 


S1 = Stack.new 
s1i.push(1) 

s1i.push(2) 

puts s1.,pop # 显示 2 


S2 = Stack.new 
s2.push("foo") 
puts s2.pop # 显示 foo 


puts s1.pop # 显示 1 


图 2-21 类 具有 把 相同 种 类 的 对 象 进行 统一 管理 的 功能 。 往 栈 s1 里 放 入 1、2 之 后 ， 从 中 到 
出 一 个 元 素 。 往 栈 s2 里 放 入 foo 之 后 ， 再 从 中 取出 一 个 元 素 ， 最 后 从 s1 中 再 取出 一 个 元 
素 。 这 就 是 Ruby 程序 


栈 是 LIFO (后 入 先 出 ) 的 数据 结构 。 可 以 按照 从 后 向 前 的 顺序 把 里 面 
的 数据 取出 来 。 图 2-21 的 程序 里 定义 了 两 个 栈 ，s1 和 s2 ， 分 别 对 它 
们 放 入 和 取出 数据 。 两 个 栈 都 是 由 相同 的 类 生成 的 对 象 ， 操 作 方 法 都 
一 样 。 但 是 ， 它 们 的 数据 都 是 独立 的 ， 交 互 对 两 个 栈 进 行 操作 也 不 会 
破坏 彼此 的 数据 。 


我 们 可 以 把 面 同 对 象 编程 语言 的 类 看 做 古 结 构 化 编程 语言 的 结构 体 或 
记录 的 扩展 。 不 同 的 是 ， 类 里 面 不 仅 有 被 称 为 成 员 或 字段 的 数据 ， 而 
且 还 有 对 这 些 “ 数 据 块 ”进行 操 作 的 方法 。 


对 于 只 是 把 数据 组 织 在 一 起 的 结构 体 ， 我 们 能 做 的 只 是 取出 或 者 更 狐 
成 员 变 量 的 值 。 而 类 中 定义 有 成 员 画 数 (也 称 为 方法 ， 可 以 调用 这 
些 方 法 来 处 理 类 的 对 象 。 


例 程 能 够 把 一 系列 的 处 理 步 又 组 织 在 一 起 ， 把 处 理 的 内 容 墨 盒 化 ， 是 
个 很 有 用 的 工具 ， 而 类 则 是 把 数据 墨盒 化 的 工具 。 由 于 对 类 内 部 数据 
的 操作 都 是 通过 类 的 方法 来 实现 的 ， 所 以 内 部 数据 结构 即使 在 以 后 发 


生变 化 ， 对 外 部 也 没有 影响 。 这 和 例 程 把 处 理 黑 盒 化 之 后 ， 内 部 算法 
变化 对 外 部 没有 影响 是 同样 的 道理 。 

像 这 样 不 用 考虑 内 部 处 理 的 黑 盒 化 也 被 称 为 抽象 化 ， 是 降低 程序 复杂 
度 的 有 效 方法 。 

2.4.3 ”利用 模块 的 手段 = 继承 

类 以 数据 为 核心 ， 把 与 之 相关 的 处 理 也 都 集中 到 一 起 。 这 样 ， 模 块 之 
间 一 些 具有 共通 性 质 的 内 容 就 会 重复 出 现 ， 从 而 违背 了 禁止 重复 的 
DRY 原则 。 


6 DRY (Don't Repeat Yourself) 原则 就 是 彻底 避免 重复 。 这 一 原则 对 提高 程序 开发 的 效率 和 可 
靠 性 非常 有 效 。 


避免 重复 的 方法 是 继承 。 那 些 具 有 相同 性 质 的 类 可 以 从 拥有 共通 性 质 
的 类 中 “继承 ”这 些 共通 的 部 分 。 不 单 是 可 以 继承 ， 还 可 以 替换 ， 妃 加 
其 中 不 同 的 部 分 ， 从 而 生成 新 的 类 。 


从 这 个 角度 来 看 ， 类 十 模块 ， 继 承 就 是 利用 模块 的 方法 。 继 承 的 思想 
SE 其 现实 的 知识 基础 ， 但 是 把 它 看 做 纯粹 的 模块 利用 方法 则 更 恰 


因为 继承 只 不 过 是 抽象 的 功能 利用 方法 ， 所 以 不 必 把 对 继承 的 理解 束 
缚 在 “继承 是 对 现实 事物 的 分 类 的 反映 ”*。 实际 上 这 样 的 想法 反而 妨碍 
了 我 们 对 继承 的 理解 。 


天 于 继承 ， 规 格 继 承 和 实现 继承 的 区 别 也 是 非常 重要 的 话题 。 规 格 束 
是 从 外 部 看 到 的 类 的 功能 ， 这 样 的 继承 是 规格 继承 。 实 现 继承 是 指 继 
承 功能 的 实现 方法 。 


传统 面 问 对象 编程 语言 是 一 下 于 把 规格 和 实现 都 继承 下 来 ， 在 最 近 的 
编程 语言 中 ， 有 的 是 把 这 两 种 继承 分 开 了 “。 比如 Java 里 的 接口 就 古 规 
格 继承 ， 而 在 Sather 编程 语言 中 ， 规 格 继承 和 实现 继承 被 完全 分 离开 


2.4.4 多 重 继承 不 好 吗 


在 早期 的 面向 对 象 编程 语言 中 ， 其 功能 被 继承 的 类 ( 基 类 或 者 父 类 ) 
被 限定 为 一 个 ， 这 称 为 单一 继承 (或 者 单纯 继承 ) 。 


把 单一 继承 目 然 地 扩展 ， 一 个 类 可 以 继承 多 个 类 的 功能 ， 吏 成 为 了 多 
重 继承 。 在 目 然 界 中 也 是 一 样 ， 家 长 不 只 有 一 个 。 一 个 程序 员 同 时 也 
sm 
很 目 然 的 。 


但 是 ， 像 Java 和 Smalltalk 这 样 ， 不 文 持 多 重 继承 的 编程 语言 还 有 很 
多 ， 在 程序 员 中 多 重 继承 好 像 也 不 是 很 普及 ， 其 中 认为 “多重 继 承 是 不 
好 的 东西 ?的 人 并 不 少 。 


单一 继承 的 类 之 间 的 关系 是 很 单纯 的 树 结构 。 但 是 对 多 重 继承 而 言 ， 
类 之 间 的 关系 却 是 复杂 的 网 状 结构 。 


正 因为 如 此 ， 多 重 继承 在 一 部 分 开发 者 当中 的 评价 并 不 好 ， 但 是 考虑 
到 程序 的 生产 力 ， 多 重 继承 还 是 必要 的 。 


对 于 像 Java 或 者 C++ 这 样 需要 指定 变量 类 型 的 静态 语言 来 说 ， 父 类 类 
型 的 变量 可 以 用 子 类 的 对 象 来 赋值 。 如 果 用 子 类 以 外 的 对 和 象 来 赋值 的 
话 ， 就 会 发 生 编译 错误 。 所 以 可 以 说 这 既 实 现 了 多 态 性 ， 又 实现 了 对 
变量 类 型 的 检查 ， 是 一 个 很 好 的 想法 ”。 


7 子 类 对 象 拥有 父 类 所 有 属性 ， 可 以 当做 父 类 对 象 来 处 理 ， 这 种 状态 称 为 LSP (Liscov 


Substitution Principle) 。 


和 


但 是 ， 把 对 和 象 统 一 处 理 的 观点 可 能 不 止 一 个 。 比 如 对 于 字符 串 类 ， 如 
果 着 眼 于 能 够 比较 大 小 这 一 性 质 的 话 ， 我 们 有 时 想 把 它 与 数值 等 统一 
处 理 。 这 时 我 们 可 能 会 创建 一 个 能 够 比较 大 小 的 父 类 ， 让 数值 和 字符 
串 来 继承 这 个 父 类 。 


而 在 同一 程序 中 别 的 地 方 ， 考 虚 到 字符 串 类 是 字符 的 序列 ， 为 能 实现 
把 其 中 的 元 素 按 照 顺序 取出 的 操作 ， 又 想 把 它 与 列表 等 统一 处 理 。 这 
中 需要 给 字符 串 和 列表 定义 一 个 共通 的 父 类 。 但 是 单一 继承 只 能 有 一 
个 父 类 ， 不 可 能 同时 实现 比较 大 小 和 按 顺 序 访问 这 两 个 要 求 。 


所 以 ， 为 了 解决 这 个 问题 ， 多 重 继承 在 静态 编程 语言 中 是 必要 的 。 实 
际 上 ， 静 态 夯 问 对 象 编程 语言 的 代表 C++ 和 Eiffel 8 都 文 持 多 重 继 
承 。Java 也 可 以 通过 接口 来 文 持 规格 的 多 重 继承 。 


8 Eiffel 是 在 20 世纪 80 年 代 后 期 由 Bertrand Meyer 设计 的 面向 对 象 编程 语言 。 其 主要 特点 是 
静态 类 型 与 多 重 继承 ， 严 密 的 规格 与 “基于 契约 的 设计 ”。Eiffel 在 国外 金融 等 领域 中 得 到 了 实 
际 应 用 。 


2.4.5 “动态 编程 语言 也 需要 多 重 继承 


动态 编程 语言 没有 类 型 检查 ， 从 这 方面 来 说 没有 理由 用 多 重 继承 。 那 
么 动态 编程 语言 真 的 不 需要 多 重 继承 吗 ? 

肯定 不 是 这 样 的 。 

无 论 从 类 型 上 考虑 结 采 如 何 ， 从 模块 的 角度 来 看 ， 单 一 继承 也 有 很 多 
不 便 性 。 比 如 “一 个 文件 只 能 利用 一 个 库 * 这 样 的 限制 就 让 我 们 感到 很 
不 自由 。 

当然 ， 实 现 的 共享 可 以 通过 多 个 对 象 的 组 合 (composition) 和 委托 
(delegate) 2 来 做 到 ，Java 中 就 推荐 这 种 方法 。 


9 组合 是 把 多 个 对 象 合成 一 个 对 象 来 处 理 。 委 托 是 把 对 一 个 对 象 的 方法 调用 委派 给 别 的 对 
象 。 


Da 


但 是 如 果 把 类 当做 模块 来 看 的 话 ， 多 重 继承 相当 于 语言 功能 文 持 模块 

组 合 。 有 了 多 重 继承 ， 同 样 的 处 理 可 以 人 简单 地 记述 ， 可 以 促进 实现 的 

2 从 DRY 原则 的 角度 来 看 ， 今 后 的 面向 对 象 语言 也 应 该 文 持 多 
继 确 。 


2.4.6 ”驯服 多 重 继承 的 方法 

多 重 继 承 因 为 有 多 个 父 类 ， 所 以 可 能 引发 下 面 两 个 问题 。 
1. 类 关系 复杂 化 。 

2. 继承 功能 名 字 重 复 。 


最 初 的 问题 起 因 是 类 的 关系 从 简单 的 树 结 构 变 成 了 复杂 的 网 状 结构 。 
ee 子 类 和 父 类 、 父 类 和 它 的 父 类 ...... 之 间 的 关系 是 一 条 直 
多 重 继承 时 ， 类 之 则 的 关系 变 成 由 一 个 类 作为 顶点 的 有 癌 图 。 如 图 2- 
22 所 示 ， 优 先 级 不 能 被 简单 地 确定 。 图 2-22 左边 显示 的 是 单一 继承 
的 例子 。 类 C 和 父 类 之 间 的 优先 级 是 C-B-A， 人 简单 而 明确 。 右 边 显 示 
的 是 多 重 继承 的 例子 。 类 5 的 父 类 有 类 1、 类 2、 类 3 和 类 4， 但 是 父 
类 之 间 的 优先 级 并 不 明确 。 


类 A 类 1 、 

类 B 类 2 
| re 和 
类 C 类 D i pe 


图 2-22 单一 继承 和 多 重 继 承 

解决 优先 级 问题 需要 巧妙 的 设计 ， 设 计 好 的 话 ， 就 不 会 有 (或 难以 发 
生 ) 问题 。 多 重 继承 确实 容易 让 类 之 间 的 关系 变 得 复杂 。 不管 怎么 
说 ， 和 单一 继承 相 比 ， 这 是 一 个 很 显眼 的 缺点 。 但 是 如 果 能 够 进行 巧 
妙 和 适当 的 设计 ， 大 部 分 场合 这 个 问题 是 可 以 避免 的 。 


多 重 继 承 设计 的 一 个 有 效 的 技巧 是 Mix-in。Ruby 也 利用 了 这 个 技 
巧 。 


| 做 多 重 继承 设计 时 ， 从 第 2 个 父 类 开始 的 类 要 满足 以 下 条 
件 。 


1. 不 能 单独 生成 实例 的 抽象 类 。 
2. 不 能 继承 Mix-in 以 外 的 类 。 
满足 这 两 个 条 件 的 类 称 为 Mix-in 类 。 正 是 因为 这 些 限制 ，Mix-in 


类 可 以 说 是 功能 模块 。 通 过 Mix-in 类 的 功能 和 一 般 类 的 组 合 ， 继 承 
关系 既 单纯 ， 又 可 以 译 受 多 重 继承 的 优 上 。 


么 多 的 限制 ， 对 于 Mix-in 的 实用 性 ， 式 伯 有 人 会 抱 有 怀疑 的 态 


有 
度 。 
其 实 一 般 的 继承 是 可 以 变换 成 基于 Mix-in 的 关系 的 。 请 看 图 2-23 和 
2-24。 图 2-23 是 Window 类 的 多 重 继承 关系 。 在 一 般 的 Window 
类 上 ， 加 上 标题 栏 就 是 Titledwindow 类 ， 加 上 边框 就 是 
Framedwindow 类 ， 既 有 标题 义 有 边框 的 是 TitledFramedwWindow 


类 。TitledFramedwindow 类 分 别 继承 了 Titledwindow 类 和 
Framedwindow 类 。 


TitledWindow FramedWindow 


TitledFramedWindow 


图 2-23 ”多重 继承 的 例子 ，Window 类 的 继承 关系 


Window 


TitledWindow TitledFramedWindow 二 FramedWindow 


图 2-24 图 2-23 的 Mix-in 版 


而 在 图 2-24 中 ,用 Mix-in 实现 了 相同 的 功能 。 标 题 功能 和 边框 功能 
分 别 被 做 成 两 个 Mix-in 类 ， 这样 Titledwindow 类、 


Framedwindow 类 和 TitledFramedwindow 类 就 成 为 了 3 个 独立 
的 类 。 

这 样 ， 通 过 对 功能 的 分 离 ， 多 重 继承 束 可 以 由 单一 继承 加 上 Mix-in 类 
4 。 利 用 Mix-in 就 可 以 同时 享有 单一 继承 的 单纯 性 和 多 重 继承 的 


另外 一 个 比较 太 烦 的 问题 是 名 字 重 复 。 多 重 继承 编程 语言 都 有 目 己 的 
对 应 方法 ， 大 致 上 分 为 以 下 3 种 。 


1. 给 父 类 定义 优先 级 


重复 的 时 候 使 用 优先 级 高 的 父 类 属性 。Common Lisp Object 
System (CLOS) 提供 的 这 个 功能 在 继承 数据 类 型 时 很 有 效 。 


2. 把 重复 的 名 字 替 换 掉 
Eiffel 使 用 的 就 是 这 种 方法 。 在 模块 继承 时 用 这 种 方法 很 有 效 ， 其 
缺点 是 写 程序 时 很 复杂 。 
3. 指定 使 用 类 的 名 字 
C++ 用 的 是 这 种 方法 。 这 也 是 在 继承 模块 时 有 效 的 方法 。 缺 点 是 
本 来 不 需要 指定 类 名 的 情况 现在 却 要 指定 。 
从 对 应 方法 可 以 明白 地 看 到 各 种 语言 的 特点 。Lisp 重视 数据 类 型 的 继 
承 ，Eiffel 和 C++ 重视 模块 的 继承 。 
2.4.7 ”Ruby 中 多 重 继承 的 实现 方法 


当初 设计 Ruby 的 时 候 ，Mix-in 并 不 广为人知 。 我 认为 Mix-in 是 
解决 多 重 继承 问题 的 非常 好 的 方法 。 所 以 ， 出 于 启蒙 的 目的 ， 我 特意 
在 Ruby 中 强制 采用 了 Mix-in ， 而 没有 使 用 普通 的 多 重 继承 。 


不 知道 是 否 因为 这 个 原因 ，Mix-in 的 知名 度 提 高 了 。 但 是 也 像 前 面 
说 过 的 一 样 ， 甚 至 一 些 计算 机 科学 的 研究 者 也 产生 了 对 多 重 继承 的 误 


解 


我 们 比较 一 下 在 Ruby 中 使 用 和 不 使 用 Mix-in 的 区 别 。 图 2-25 是 使 
用 Mix-in 的 Ruby 程序 。 用 module 定义 的 是 Mix-in 类 。 


2-25 的 LockingMixin 可 以 对 任意 的 类 提供 lock 功能 。 在 这 
里 , 给 Printer 类 增加 了 lock 功能 。 在 spool 方法 中 调用 了 
lock 方法。 


module LockingMixin 


def lock 


end 
def unlock 


class Printer<Device 


include LockingMixin 
def spool(text) 
lock 
unlock 
end 
end 


图 2-25 利用 Mix-in 的 Ruby 程序 
2-26 是 没有 Mix-in 的 Ruby 程序 。 这 里 增加 了 实现 Lock 功能 的 


对 象 初始 化 ， 添 加 了 Lock 方法 ， 还 要 定义 很 多 方法 的 委托 调用 。 比 
较 起 来 ，Mix-in 程序 就 很 简洁 。 


class Lock 


def lock 


end 
def unlock 


ehd’ 
end 


class Printer<Device 


def initialize 
Q@lock = Lock.new 

end 

def lock 
@lock.lock 

end 

def unlock 
@lock.unlock 

end 

def spool(text) 
@lock.lock 


@lock.unlock 
end 
end 


图 2-26 不 用 Mix-in 来 实现 图 2-25 的 功能 


2.4.8 ” Java 实现 多 重 继承 的 方法 


Java 采用 了 单一 继承 。 但 是 为 了 满足 静态 编程 语言 对 多 重 继承 的 需 
要 ，Java 采用 了 规格 的 多 重 继承 ， 即 接口 。 如 果 使 用 接口 ， 即 使 对 没 
有 继承 关系 的 不 同 种 类 的 对 象 也 可 以 做 共通 的 处 理 。 


但 是 接口 只 能 实现 规格 的 多 重 继承 ， 实 现 的 多 重 继承 在 Java 中 是 不 多 
许 的 。 这 种 设计 原则 多 少 会 让 人 感觉 到 不 方便 吧 。 


因为 不 允许 实现 的 多 重 继 承 ， 如 有 果 要 共通 实现 的 话 ， 一 般 要 像 图 2-26 
所 示 的 程序 一 样 使 用 委托 的 方法 。 图 2-27 是 使 用 委托 来 共通 实现 的 
Java 程序 例子 。 它 把 从 接口 调用 的 方法 ， 痢 明确 地 委托 给 实现 共通 功 
能 的 对 象 。 本 来 在 多 重 继承 中 可 以 目 动 实现 的 ， 现 在 要 通过 手工 来 实 
现 。 虽 然 有 些 麻 烦 ， 但 这 也 算 Java 的 风格 吧 。 


interface LockingMixin { 
void lock(); 
void unlock( ); 


class Lock { 
void lock(){...;}; 
void unlock(){...;}; 


} 


class Printer implements LockingMixin { 
final Lock lock = new Lock(); 
void lock() {lock.lock();} 
void unlock() {lock.1lock();} 
void spool(TextData text)t{ 
this.1lock(); 


this.unlock(); 


图 2-27 委托 来 实现 多 重 继 承 的 Java 程序 
图 2-28 没有 用 委托 的 方法 ， 而 是 把 实现 共通 功能 的 对 象 作 为 成 员 变 量 


来 使 用 。 这 样 操作 对 象 并 不 需要 直接 实现 接口 ， 而 只 是 作为 属性 保存 
一 个 实现 共通 功能 的 对 象 ， 在 程序 中 直接 调用 该 属性 的 方法 。 


interface LockingMixin { 
void lock(); 
void unlock( ); 


} 


class Lock implements LockingMixin { 
void lock(){}; 
void unlock(){}; 

} 


class Printert{ 
final Lock lock = new Lock(); 
void spool(TextData text)t{ 
this.1lock.1lock(); 


this.1lock.unlock( ); 


} 
} 


图 2-28 不 用 委托 来 实现 多 重 继 承 的 Java 程序 


没有 了 委托 的 方法 ， 这 些 部 分 惑 变 得 简单 明了 ， 但 是 在 调用 共通 功能 
的 时 候 ， 每 次 都 要 引用 属性 加 上 .lock， 会 让 人 觉得 不 怎么 漂亮 。 


米 * 米 


本 节 回 顾 了 多 重 继 夭 ， 要 点 有 以 下 5 个 。 
1. 多 重 继承 并 不 可 怕 。 
2. 今后 面 癌 对 象 编程 语言 必须 有 某 种 形式 的 多 重 继承 。 
3. 类 既 有 类 型 的 一 面 又 有 模块 的 一 面 。 
4. C++、Eiffel 等 语言 积极 利用 了 类 的 模块 的 一 面 。 
5. 使 用 Mix-in 可 以 避免 多 重 继承 的 类 关系 变 复杂 。 


正确 地 使 用 多 重 继承 和 是 提高 程序 效率 的 有 效 方法 。 如 采 本 区 的 说 明 能 
够 减少 对 多 重 继承 的 误解 ， 那 我 束 感 到 很 幸运 了 。 


10 本 市 内 容 参 考 了 《面向 对 象 入 门 》 一 书 ， 该 书 由 Bertrand Meyer 车 ， 二 木 厚 吉 审 校 ， 酒 句 
宽 . 酒 句 顺 子 译 ，Ascii 出 版 ，ISBN4756100503。 书 名 是 “入 门 ”， 但 根本 不 是 面向 初学 者 的 ， 
而 是 面向 中 高 级 读者 的 书 。 例 题 都 是 用 〈 大 家 不 太 熟 悉 的 ) Eiffel 语言 写成 的 ， 遗 憾 的 是 
Eiffel 本 身 的 版 本 也 很 老 ， 但 即使 有 这 些 缺 点 ， 这 本 书 还 是 非常 有 价值 的 。 例 题 以 外 的 内 容 一 
点 也 不 过 时 。 如 果 想 要 进一步 深入 理解 面向 对 象 编程 的 话 ， 这 本 书 可 以 说 是 最 好 的 。 还 有 ， 
翔 泳 社 重新 翻译 了 这 本 书 ， 分 两 册 出 版 : 《面向 对 象 入 门 〈 第 2 版 ) : 原则 ,概念 》，《 面 
向 对 象 入 门 (第 2 版 ，: 方法 论 。 实 践 》。 


2.5 Duck Typing 诞生 之 前 


在 编程 世界 中 ， 经 常 提 到 静态 (static) 与 动态 (dynamic) 这 样 的 词 
汇 。 静 态 是 指 程序 执行 之 前 ， 从 代码 中 就 可 以 知道 一 切 。 程 序 静 态 的 
部 分 包括 变量 、 方 法 的 名 称 和 类 型 以 及 控制 程序 的 结构 等 等 。 


相对 于 静态 ， 动 仿 是 指 在 程序 执行 之 前 有 些 地 方 是 不 知道 的 。 程 序 动 
态 的 部 分 包括 变量 的 值 、 执 行 时 间 和 使 用 的 内 存 等 等 。 


如 条 知道 程序 使 用 的 算法 和 输入 值 ， 昌 然 有 时 候 不 执行 也 可 以 知道 输 
出 的 结 有 末 ， 但 是 现实 中 这 种 单纯 的 情况 很 少 。 通 冰 情 况 下 ， 程 序 本 来 
忠臣 不 个 执行 束 不 知道 结果 的 ， 所 以 从 一 定 程 度 上 说 程序 都 具有 动态 
特性 。 因 此， 严格 地 说 ， 静 态 和 动态 之 间 的 界限 是 很 微妙 的 。 


2.5.1 为 什么 需要 类 型 


在 程序 中 具有 动态 或 静态 特性 的 东西 很 多 ， 这 里 以 类 型 为 重点 ， 讲 解 
一 下 静态 类 型 和 动态 类 型 。 


编程 语言 中 的 类 型 指 的 是 数据 的 种 类 。 例 如 整数 和 字符 串 都 是 数据 的 
类 型 。 从 硬件 的 角度 来 看 ， 计 算 机 可 以 处 理 的 类 型 只 有 二 进 制 。 在 计 
算 机 可 以 直接 操作 的 汇编 语言 中 ， 数 据 类 型 都 是 整数 ! ， 其 他 类 型 的 
数据 都 用 整数 来 表现 。 


只 处 理 二 进 制 数 的 说 法 只 是 一 个 概念 。 实 际 上 CPU 可 以 直接 处 理 浮 点 小 数 等 整数 以 外 的 类 
型 。 


例如 表现 字符 串 的 时 候 ， 古 给 每 个 字符 部 篇 上 号， 这 些 整 数 编号 排列 
起 来 构成 了 字符 串 。 内 存 中 的 地 址 (位 置 ) 也 是 用 整数 来 表现 的 。 数 
组 、 对 象 等 复杂 数据 也 是 一 样 的 。 


但 是 这 种 处 理 方法 是 很 低级 的 ， 它 要 求人 要 理解 、 记 忆 用 整数 来 表达 
所 有 类 型 数据 的 方法 。 不 小 心 出 一 点 差错 程序 束 不 能 运行 。 


这 样 的 话 程 序 员 的 负担 就 太 大 了 ， 所 以 编程 语言 就 进化 了 了 人。 被 称 为 世 
界 上 最 初 的 编程 语言 的 FORTRAN (Formula Translator， 公 式 变 换 

机 ) ，3 引 入 了 变量 和 算式 的 类 型 。 在 程序 中 ， 变 量 只 能 用 整数 赋值 ， 

数组 只 能 是 浮 点 数 的 数组 等 ， 可 以 指定 数据 类 型 。 这 是 静态 数据 类 型 
的 开始 。 这 种 对 数据 类 型 的 定义 称 为 类 型 定义 。 图 2-29 是 C 语言 的 类 
型 定义 ， 它 是 静态 语言 的 代表 。 


整数 */ 
浮 点 小 数 */ 
字符 串 */ 
整数 */ 


类 型 不 匹配 */ 


图 2-29 C 语言 的 类 型 定义 


假设 在 程序 中 把 字符 串 赋值 给 整数 型 的 变量 ， 那 么 根据 程序 的 定义 ， 
编译 器 知道 赋值 语句 中 值 的 类 型 《字符 串 ) 和 变量 的 类 型 (整数 ) ， 


所 以 能 够 检查 出 这 种 夫 型 个 匹配 的 错误 。 静 态 的 卖 开 个 用 执行 程序 哆 
可 以 通过 机 器 检测 到 这 种 人 为 错误 ， 可 以 说 是 一 项 伟大 的 发 明 。 


2.5.2 ”动态 的 类 型 是 从 Lisp 中 诞生 的 


在 FORTRAN 出 现 数 年 之 后 诞生 的 Lisp 编程 语言 (List Processor， 列 
表 处 理 机 ) ， 对 于 数据 类 型 的 问题 采取 了 另 一 种 解决 方法 。 在 1958 年 
刚 出 现时 ，Lisp 只 支持 列表 (list) 和 原子 (atom) 这 两 个 数据 类 型 。 


列表 是 可 以 由 两 个 引用 的 节点 (node) 构成 的 单 向 列表 ， 比 如 像 (5 13) 
这 样 的 数据 。 原 子 比 较 难 说 明 ， 简 单 地 说 就 是 指 List 以 外 的 数据 类 
型 ， 比 如 数值 和 字符 串 都 是 原子 (参见 图 2-30) 。 


cons 网 格 


原子 原子 
图 2-30 ”Lisp 的 链表 与 原子 


List 的 每 个 节点 ， 历 史上 称 为 cons 单元 ， 可 以 引用 其 他 的 cons 单 
元 或 原子 。cons 单元 可 以 有 两 个 引用 ， | 前 面 的 称 
为 car ， 后 面 的 称 为 cdr (参见 图 2-31) 


nil 原 子 


| 
图 2-31 链表 原子 的 细节 ，nil 是 空 的 原子 


在 Lisp 中 程序 和 数据 如 果 不 能 用 文字 来 表现 的 话 会 很 态 烦 。 所 以 Lisp 
用 字符 串 来 表现 名 为 $ 式 的 列表 。S 式 是 用 以 下 规则 把 列表 转换 成 字 


。cons 单元 中 ，car 的 值 和 cdr 的 值 用 点 连接 ， 再 用 括号 括 起 
> 


。Ccdr 如 果 是 列表 的 话 ， 省 略 插 号 。 
。 末 尾 的 cdr 如 果 是 nil ， 那 么 省 略 .nil 。 


按 顺 序 应 用 这 些 规则 的 话 ， 图 2-31 的 列表 可 以 用 下 面 的 字符 串 来 表 
示 。 从 第 一 行 开始 按照 顺序 进行 简化 ， 束 可 以 得 到 第 三 行 的 结果 。 


Lisp 的 数据 用 列表 ， 程 序 也 用 列表 ， 所 有 的 东西 都 用 列表 来 表示 。 
i 式 表 示 的 列表 构造 本 身 束 是 程序 。 网 2-32 是 Lisp 的 计算 阶 
AACHS 予 oO 


(defun fact (n) 
(if (= n 0) 


(* n (fact (- n 1))))) 


图 2-32 ”Lisp 的 计算 阶乘 的 程序 


Lisp 的 列表 中 的 各 个 cons 单元 是 指 回 cons 单元 还 是 原子 ， 事 前 是 
不 知道 的 。 列 表 中 cons 单元 和 原子 混杂 存在 ， 这 从 本 质 上 束 可 以 说 
是 多 态 的 数据 结构 。 以 这 种 数据 结构 为 基础 的 Lisp 采取 的 战略 是 数 
要 记 杂 与 目 己 数据 类 型 有 关 的 信息 。 这 样 的 数据 类 型 称 为 动态 类 型 。 


Lisp 程序 中 ， 如 果 用 只 能 处 理 原 子 数据 的 方法 来 处 理 cons 单元 数 
据 ， 执 行 时 的 数据 类 型 检查 束 会 报告 错误 。 因 为 执行 时 有 类 型 检查 ， 


所 以 一 旦 发 现 有 不 正确 的 处 理 ， 程 序 束 会 停止 执行 。 但 古 不 执行 程序 
的 话 是 无 法 知道 哪儿 有 错误 的 。 


2.5.3 ”动态 类 型 在 面向 对 象 中 发 展 起 来 了 


编程 语言 的 数据 类 型 分 为 两 类 ， 一 类 是 起 源 于 FORTRAN 的 指定 了 变 
量 或 算式 数据 类 型 的 静态 类 型 ， 另 一 类 是 起 源 于 Lisp 的 动态 类 型 。 静 
态 类 型 从 FORTRAN 开始 ， 通 过 COBOL、ALGOL 被 很 多 编程 语言 采 
用 o 


C 语言 的 原型 是 没有 数据 类 型 定义 的 BCPL 语言 ， 该 语言 受到 了 
ALGOL 语言 的 影响 采用 了 静态 类 型 。 


在 很 长 的 时 间 里 ， 只 有 Lisp 和 受 其 影响 的 语言 (比如 LOGO) 才 采 用 
了 动态 类 型 ,但 是 以 “ 某 件 事情 ”为 契机 ， 动 态 类 型 开始 得 到 广泛 接 
过 0 


那个 “ 某 件 事情 ?”， 束 是 面 癌 对象 编 程 。 最 初 的 面 癌 对 象 编 程 语言 
Simula， 受 到 了 ALGOL 语言 的 很 大 影响 ， 像 整数 等 这 些 基 本 的 数据 
类 型 都 采用 了 静态 类 型 。 但 是 对 新 引入 的 对 象 ， 不 论 它 是 哪个 类 的 对 
象 ， 全 都 用 Ref 这 种 类 型 来 表现 。 


不 管 是 什么 类 的 对 象 ， 它 们 的 静态 类 型 都 是 Ref 型 ， 没 有 任何 区 别 。 
但 是 Ref 型 数据 知道 自己 是 什么 类 的 对 象 ， 所 以 Ref 可 以 说 是 动态 


仔细 想 想 ， 对 象 保 存 着 有 头目 己 种 类 的 信息 ， 某 个 变量 可 以 用 各 种 类 
型 的 数据 来 赋值 ， 这 两 点 是 多 态 这 一 面 问 对 象 重要 特性 的 必要 条 件 。 
因为 如 采 变 量 类 型 和 赋值 数据 的 类 型 必须 是 完全 一 致 的 静态 类 型 的 
话 ， 程 序 执行 时 融 不 可 能 根据 数据 类 型 的 不 同 来 目 动 选 择 合适 的 处 理 
人 
HH o 


继承 了 起 源 于 Simula 的 面向 对 象 思想 ，Smalltalk 像 Lisp 一 样 ， 全 面 
采用 了 动态 类 型 。 虽 然 从 外 部 来 看 ，Smalltalk 和 Lisp 完全 不 一 样 ， 但 
从 内 部 构造 来 看 ， 它 们 像 双 胞 胎 一 样 。 另 外 ，Lisp 也 增加 了 面向 对 象 
的 功能 ， 独 立地 发 展 到 了 现在 。 


无 论 如 何 ， 从 20 世纪 70 年 代 到 80 年 代 ， 面 向 对 象 编程 是 由 动态 类 型 
语言 Smalltalk 和 Lisp (及 它们 的 各 种 方言 ， 所 文 撑 的 。 


2.5.4 ”动态 类 型 和 静态 类 型 的 迁 后 


20 世纪 80 年 代 ， 面 向 对 象 编程 语言 的 主流 是 包含 动态 数据 类 型 的 语 
言 。 但 是 在 21 世纪 的 今天 ， 使 用 最 广泛 的 面 癌 对象 编程 语言 是 具有 静 
Java 和 C++。 在 面 癌 对 象 编程 语言 的 历史 上 ， 究 竟 发 生 
了 什么 呢 ? 


在 20 世纪 80 年 代 初 期 ， 受 到 Simula 的 影响 ， 一 个 面向 对 象 的 编程 语 
言 诞 生 了 ， 这 殉 是 C++。C++ 包 含 了 C 的 所 有 功能 ， 并 增加 了 由 
Simula 发 展 而 来 的 面 同 对 象 功能 。 


2 C++ 没有 受到 Smalltalk 的 影响 ， 而 是 受到 Simula 的 直接 影响 ， 所 以 很 多 用 语 都 不 同 于 
Smalltalk。 比 如 ， 父 类 称 为 基 类 (base class) ， 子 类 称 为 派生 类 (derived class) 。 这 反映 了 
C++ 的 作者 Bjame Stroustrup 曾 是 Simula 用 户 。 


在 Simula 中 ， 除 对 象 以 外 的 数据 类 型 都 是 静态 类 型 。 受 到 Simula 很 
影响 的 C++， 因 为 引入 了 一 个 原则 ， 对 象 也 采用 了 静态 类 型 。 


这 个 原则 束 是 子 类 对 象 可 以 看 成 是 父 类 对 象 。 具 体 来 说 ， 如 果 
String (字符 串 ) 类 是 0bject (对 象 ， 类 的 子 类 的 话 ， 那 么 
六 类 的 所 有 对 象 都 可 以 看 做 是 0bject 类 的 对 象 《参见 图 2- 
33h. 5 


class Object { 


a 
class String : public Object { 


了 


本 
// 看 成 是 0bject 

String *str = new String(); 
Object *obj = str; 


图 2-33” C++ 对 象 与 静态 类 型 的 关系 


根据 这 个 原则 ， 在 编译 时 就 可 以 知道 变量 或 算式 的 类 型 ， 又 可 以 根据 
执行 时 的 数据 类 型 目 动 选择 合适 的 处 理 ， 从 而 同时 具备 了 静态 类 型 的 
优点 和 动态 关 型 的 多 仿 性 。 


因为 在 编译 时 就 知 道 了 变量 和 算式 类 型 ， 所 以 可 以 在 执行 前 就 发 现 类 
型 不 匹配 错误 。 这 是 一 个 很 大 的 优点 。 另 外， 根据 类 型 信息 在 编译 时 
大 胆 进行 优化 ， 可 以 提高 程序 执行 速度 。 


因为 有 这 样 的 优点 ，C++ 与 20 世纪 90 年 代 受 到 C++ 影响 诞生 的 
Iowa 以 及 CH 等 果 用 区 态 数 据 类 型 的 面向 对 象 编程 语 言 ， 者 得 到 了 六 
泛 的 使 用 。 


2.5.5 ”静态 类 型 的 优点 


现在 静态 类 型 的 面 辣 对 象 编程 语言 被 广泛 使 用 。 肯 先 ， 我 们 比较 一 下 
静态 类 型 和 动态 类 型 的 优 缺 点 。 


静态 类 型 最 大 的 优点 是 在 编译 时 能 够 发 现 类 型 不 匹配 的 错误 。 当 然 ， 
在 编译 中 是 不 可 能 发 现 程序 中 所 有 问题 的 ， 但 是 由 于 很 多 问题 部 是 由 
类 型 不 匹配 引发 的 ， 所 以 虽然 不 能 发 现 全 部 问题 ， 但 这 种 目 动 发 现 问 
题 的 功能 对 我 们 的 帮助 还 是 很 大 的 。 


与 其 相反 ， 动 态 类 型 的 编程 语言 至 多 只 能 发 现 程序 语法 错误 。 


程序 中 如 果 明 确 指 定 了 数据 类 型 ， 那 么 编译 时 可 以 用 到 的 信息 丈 很 
多 。 利 用 这 种 信息 可 以 在 编译 时 对 程序 做 优化 ， 提 高 程序 执行 速度 。 


数据 类 型 信息 不 只 是 对 编译 釉 有 用 “。 我 们 在 看 程序 的 时 候 , “这 个 参数 
征 什么 类 型 > 的 信息 对 我 们 理解 程序 也 是 有 很 大 帮助 的 。 集 成 开发 环境 
(IDE) 也 可 以 利用 这 些 信息 来 自动 补充 完整 方法 名 。 这 些 功能 的 实 
现 都 得 益 于 可 以 利用 的 类 型 信息 。 


最 后 ， 变 量 和 算式 分 别 有 目 己 的 类 型 ， 这 使 得 我 们 能 够 在 一 开始 就 认 
真 考虑 这 些 变 量 应 该 扮演 什么 样 的 角色 。 我 们 在 编写 程序 时 就 要 考虑 
数据 类 型 ， 虽 然 要 考虑 的 东西 变 多 了 ， 但 是 也 不 能 简单 地 说 这 是 坏 
事 。 显 而 易 见 ， 这 和 是 我 们 开发 好 的 、 可 知性 高 的 程序 所 必需 的 。 


从 以 上 几 点 来 看 ， 静 态 类 型 似乎 全 都 是 优点 。 其 实 它 也 有 几 个 缺点 ， 
或 者 说 是 问题 。 


其 中 一 个 问题 是 ， 知 不 指定 类 型 束 写 不 了 程序 。 当 然 ， 指 定 类 型 是 静 
态 类 型 编程 语言 的 特征 之 一 。 但 是 说 到 底 ， 数 据 类 型 只 是 一 些 辅助 信 
思 ， 并 不 是 程序 本 质 。 当 我 们 想 把 精力 集中 到 程序 处 理 的 实际 问题 
时 ， 却 要 一 个 个 考虑 数据 类 型 的 定义 ， 这 有 是 很 烦琐 的 。 并 且 ， 有 时 会 
让 人 觉得 ， 有 的 类 型 声明 仅仅 是 为 了 满足 编译 絮 的 要 求 。 程 序 规模 也 
因为 数据 类 型 的 定义 而 变 大 ， 重 要 的 部 分 反而 容易 被 名 视 。 


另外 一 个 是 灵活 性 的 问题 。 静 仿 类 型 本 喘 限 制 了 给 某 个 变量 只 能 赋值 
某 种 类 型 的 对 象 ， 这 种 限制 可 能 成 为 妨碍 将 来 变化 的 杉 锁 。 前 面 学 过 
的 多 重 继承 和 接口 会 产生 令 人 费解 的 继承 关系 ， 这 时 怎样 设 定 适 当 的 
类 型 束 变 得 比较 困难 了 。 


总 结 一 下 ， 用 静态 类 型 编程 语言 的 人 通过 定义 类 型 ， 把 更 多 的 信息 传 
ee 
HH o 


2.5.6 ”动态 类 型 的 优点 


前 面 介绍 了 静 仿 类 型 ， 那 么 动态 类 型 义 怎 样 呢 ?动态 类 型 编程 语言 的 
最 大 优点 是 源 代码 变 得 很 商洛 。 编 程 语言 的 进化 使 我 们 可 以 用 更 倘 单 
的 程序 来 传达 给 计算 机 更 多 信息 。 如 果 不 用 指定 与 程序 本 质 无 天 的 数 
据 类 型 ， 程 序 也 完全 可 以 正确 执行 ， 也 可 以 检测 出 来 错误 的 话 ， 这 不 
征 一 种 很 好 的 想法 吗 ? 


得 益 于 简洁 ， 我 们 在 编写 程序 的 时 候 就 不 用 考虑 数据 类 型 这 些 无 关 本 
质 的 部 分 了 ， 而 是 可 以 集中 于 程序 处 理 的 本 质 部 分 ， 编 写 简 污 程序 的 
话 ， 也 可 以 提高 生产 力 。 


另 一 方面 ， 有 人 会 担心 ， 简 洁 的 程序 虽然 让 我 们 在 编程 的 时 候 变 得 简 
单 了 ， 但 是 因为 没有 类 型 信息 ， 以 后 读 起 来 是 不 是 吏 变 得 难以 理解 
呢 ? 虽然 写 的 时 候 容易 了 ， 但 难 读 的 程序 也 是 不 可 取 的 。 对 于 这 样 的 
担心 ， 我 的 回答 是 ， 人 简洁 的 程序 更 突出 了 程序 处 理 的 实质 ， 理 解 起 来 
反而 变 得 简单 了 。 实 际 上 ， 动 态 类 型 的 编程 语言 (例如 Ruby) 的 程序 
规模 和 前 人 态 类 型 相 比 ， 程 序 行 数 相 差 数 倍 的 情况 并 不 少见 。 很 多 人 都 
感觉 到 动态 类 型 的 程序 更 好 理解 。 


对 于 简洁 程序 的 另外 一 个 担心 是 ， 动 态 类 型 语言 是 否 运 行 缓慢 呢 ? 事 
实 上 是 这 样 的 。 同 样 的 处 理 ， 在 大 多 数 情况 下 ， 静 态 类 型 编程 语言 运 
行 得 要 快 些 。 


这 是 因为 动态 类 型 程序 执行 时 要 做 类 型 检查 。 男 外 ， 议 态 类 型 的 编程 
语言 大 都 通过 编译 把 程序 源 代 码 转换 成 可 以 直接 执行 的 形式 ， 而 动态 
类 型 的 编程 语言 大 多 是 边 解释 源 代 码 (转换 成 内 部 形式 ) 边 执行 ， 这 
种 编译 型 处 理 和 解释 型 处 理 的 区 别 也 是 影响 程序 执行 速度 的 原因 之 

一 。 说 起 程序 ， 很 多 时 候 执 行 速度 并 不 是 很 重要 的 ， 随 着 计算 机 性 能 
的 提高 ， 执 行 速度 束 更 不 是 什么 严重 的 问题 了 。 

动态 类 型 编程 语言 的 男 外 一 个 特点 是 灵活 性 。 动 态 类 型 语言 的 程序 不 
用 指定 变量 的 数据 类 型 ， 所 以 即使 开发 时 没有 考虑 到 的 数据 类 型 也 可 
以 轻松 地 处 理 。 这 种 灵活 性 的 天 键 十 我 们 下 面 要 讲 的 Duck Typing 构 


/已 


动态 类 型 编程 语言 的 最 大 缺点 古 不 执行 束 检 测 不 出 错误 。 和 议 态 类 型 
的 目 动 错误 检测 相 比 ， 这 算是 它 的 不 足 吧 。 


2.5.7 ”只 关心 行为 的 Duck Typing 
表达 动态 类 型 灵活 性 的 概念 是 Duck Typing。 下 面 是 来 目 西方 的 一 句 格 


If it walks like a duck and quacks like a duck, it must be a duck 〈 走 起 路 来 
像 蝎 子 ， 叫 起 来 也 像 蝎 子 ， 那 么 它 就 是 岗子 ) 。 


从 这 里 可 以 导出 这 样 的 规则 :如果 行为 像 蝎 子 ， 那 么 不 管 它 是 什么 ， 
束 把 它 看 做 鸭子 。 根 本 不 考 虚 一 个 对 象 属于 什么 类 ， 只 关心 人 它 有 什么 
样 的 行为 ( 它 有 哪些 方法 ， 这 就 是 Duck Typing。 提 出 Duck Typing 
这 个 概念 的 是 大 名 鼎 思 的 专家 程序 员 Dave Thomas 。 
我 们 来 看 一 个 Duck Typing 的 具体 例子 。 假 设 有 一 个 例 程 
1ogs_puts() ， 向 文件 输出 日 志 消 息 。 假 定 这 个 方法 有 两 个 参数 
(输出 对 象 和 要 输出 的 消息 )。 如 果 是 静态 类 型 编程 语言 ， 比 如 C++， 
程序 会 是 像 下 面 这 样 的 。 


void log_puts(ostream out, char* msg); 


1og_puts() 例 程 向 输 出 out 里 输出 时 刻 和 消 轧 调用 这 个 例 程 如 
不 °5 


log_puts(cout,"message"); 


> 


cout 《C++ 的 标准 输出 设备 ) 上 会 输出 如 下 日 志 。 


2005-06-16 16:23:53 message 


现在 ， 如 有 果 我 们 想 把 1og 输出 到 字符 串 而 不 是 文件 的 话 ， 那 该 上 怎么 办 


呢 ? 


因为 指定 输出 对 象 的 out 参数 的 类 型 已 经 定义 成 ostream ， 无 法 人 简 
单 地 变更 ， 结 果 我 们 要 么 把 1ogs_puts( ) 这 个 例 程 全 部 复制 一 遍 ， 
另外 狐 增 一 个 以 字符 串 为 输出 对 象 的 例 程 ， 要 么 先 输出 到 临时 文件 ， 
然后 再 把 它 读 到 字符 串 里 ， 没 有 别 的 办 法 。 


那么 ， 如 采 使 用 Duck Typing 的 话 ， 会 变 成 怎样 灵活 的 代码 呢 ? 如 下 
不 。° 


log_puts (out, msg) 


| 


因为 是 动态 类 型 ， 所 以 程序 中 不 用 指定 参数 的 类 型 ， 下 面 的 调用 会 和 
C++ 一 样 回 STDOUT (Ruby 的 标准 输出 设备 ) 输出 同样 的 日 志 。 


log_puts (STDOUT, "message") 


好 了 ， 和 刚才 一 样 ， 现 在 我 们 想 把 信息 输出 到 字符 串 ， 有 了 Duck 
Typing 就 简单 多 了 。 任 何 对 象 ， 如 果 它 拥有 和 输出 对 象 标准 输出 设 


备 ) 相同 的 方法 ， 那 么 就 可 以 用 它 作为 输出 对 象 。 


Ruby 字符 串 有 和 文件 一 样 的 输入 输出 类 StringI0。 图 2-34 演示 了 
用 StringI0 来 实现 输入 输出 。 


# 使 用 StringIO 类 库 
require 'stringio' 


# 生成 StringI0O 对 象 
out = StringI0() 


# 和 文件 一 样 输出 


log_puts(out, "message") 


# 表示 字符 串 结果 
puts out.string 


图 2-34 ”Duck Typing 的 例子 ,使 用 Ruby 的 StringI0 类 


StringI0 类 和 STDOUT 的 类 (I0 ) 没有 继承 关系 。 但 是 ， 
StringI0 类 中 有 I0 类 的 所 有 方法 。 所 以 ， 几 乎 在 所 有 的 情况 下 ， 
StringI0 可 以 像 I0 一样 地 来 使 用 。 


如 采用 静态 语言 实现 相同 功能 ， 需 要 首先 定义 一 个 具有 10g 输出 功能 
的 类 (在 Java 中 是 接口 ) ， 然 后 将 它 定义 为 ]0g_puts 第 一 个 参数 
的 类 型 。 像 这 个 例子 ， 如 有 果 输 出 对 象 的 类 型 是 编程 语言 中 既 有 的 类 

型 ， 那 束 需 要 重新 定义 另外 一 个 对 象 来 表达 输出 对 象 。 即 使 是 在 刚 开 
始 编写 程序 的 时 候 束 采用 这 种 机 制 也 很 费事 ， 而 如 条 是 在 中 偿 才 开始 
引入 的 话 ， 程 序 到 处 都 将 需要 大 规模 修改 。 


使 用 静 仿 类 型 语言 ， 程 序 员 通过 类 型 定义 提供 了 大 量 的 信息 ， 错 误 可 
以 尽早 检测 出 来 ， 程 序 确保 可 以 执行 。 其 代价 征 ， 如 采 类 型 设计 的 前 
提 发 生 了 变化 ， 为 保证 各 种 类 型 的 一 臻 性， 所 有 关联 的 部 分 都 要 修 
改 。 动 态 类 型 语言 因为 开始 就 不 需要 定义 数据 类 型 ， 所 以 适应 类 型 变 
化 的 能 力 比 较 强 。 


那么， 动态 类 型 语言 用 Duck Typing 的 概念 设计 时 要 遵循 什么 原则 
呢 ? 基本 原则 只 有 一 个 ， 最 低 限 度 征 只 要 掌握 下 面 这 个 基本 原则 应 该 
就 没有 问题 了 。 


2.5.8 ”避免 明确 的 类 型 检查 


有 时 需要 在 程序 中 检查 参数 的 数据 类 型 。 例 如 图 2-35， 如 采 布 望 处 理 
OE 
常 ， 报 告 销 误 。 


if not obj.kind_of?(String) 
raise TypeError, "not a string" 


end 


图 2-35 ”进行 明确 类 型 检查 的 例子 ， 在 变量 不 是 String 类 的 时 候 ， 抛 出 异常 


但 是 如 果 要 用 Duck Typing 的 概念 来 实现 程序 的 话 ， 怎 么 也 要 忍 着 

点 ， 不 要 把 程序 写成 这 样 。 如 果 以 类 为 基准 进行 数据 类 型 检查 的 话 ， 
就 会 像 静 态 编程 语言 一 样 失 去 灵活 性 。 无 论 如 何 都 想 检 查 的 时 候 ， 也 
不 要 检查 对 象 是 否 属于 某 个 类 ， 而 是 要 检查 对 象 是 否 有 某 个 方法 ( 参 
见 图 2-36) 。 


if not obj.respond_to?("to_str") 
raise TypeError, "not a string" 


end 


图 2-36 ”用 方法 来 检查 数据 类 型 ， 只 接受 有 to_str 方法 的 对 象 

其 实 即 使 不 检查 方法 ， 如 果 处 理 对 象 不 是 程序 所 期 竺 的 对 象 ， 也 肯定 
会 出 现 找 不 到 方法 错误 。 

2.5.9 ”克服 动态 类 型 的 缺点 


动态 类 型 的 缺点 主要 有 三 个 ， 即 在 执行 时 才能 发 现 错误 、 读 程序 时 可 
用 到 的 线索 少 ， 以 及 运行 速度 慢 。 


目 先 ， 执 行 时 才能 发 现 错误 这 一 点 可 以 用 完备 的 单元 测试 来 解决 。 如 
果 能 严格 实行 完备 的 单元 测试 的 话 ， 即 使 没有 编译 时 的 错误 检查 ， 程 
序 的 可 靠 性 也 不 会 降低 。 


其 次 ， 读 程序 时 可 用 到 的 线索 少 这 一 点 可 以 通过 完整 的 文档 来 解决 。 
Java 有 JavaDoc 技术 ，Ruby 也 有 RDoc 技术 ， 可 以 在 源 代码 中 同时 写 
文档 ， 减 轻 维护 文档 的 负担 。 


最 后 ， 运 行 速度 慢 这 一 点 ， 随 着 计算 机 性 能 的 提高 已 经 不 再 重要 ， 现 
在 的 程序 开发 中 ， 程 序 的 灵活 性 和 生产 力 更 为 重要 。 


2.5.10 “动态 编程 语言 

现在 我 们 对 程序 开发 生产 力 的 要 求 越 来 越 高 。 也 束 是 说 ， 要 在 更 短 的 
时 间 内 开发 出 更 多 的 功能 。 

开发 周期 短 ， 束 要 求 我 们 在 开发 过 程 中 不 断 探 求 最 合适 的 开发 方法 。 
这 又 被 称 为 “射击 移动 的 目标 ”。 像 以 前 那样 ， 一 开始 把 所 有 的 情况 都 


考虑 到 ， 在 确定 了 需求 之 后 再 进行 开发 的 方式 已 经 越 来 越 行 不 通 了 。 
尽快 着 手 开发 ， 快 速 应 对 需求 变更 的 开发 方式 变 得 越 来 越 重要 。 
在 这 种 快速 开发 模式 中 ，Duck Typing 所 代表 的 执行 时 的 灵活 性 就 非常 


有 用 。Ruby、Python、Perl 和 PHP 等 优秀 的 动态 类 型 编程 语言 ， 因 为 
它们 在 执行 时 所 具有 的 灵活 性 而 越 来 越 受 到 人 们 的 关注。 


2.6 ”元 编程 


“元 ”一 词 来 源 于 希腊 语 中 表示 “..……... 之 间 ，..………. 之 后 ， 超 越 .…...” 的 前 
级 “meta”"， 有 “超越 "? 和 “高 阶 ” 等 意思 。 在 Ruby 和 其 他 一 些 面 向 对 象 编 
程 语言 中 ， 类 的 类 称 为 元 类 ， 文 撑 别 的 对 象 的 类 对 象 称 为 元 对 象 。 


元 编程 是 对 程序 进行 编程 的 意思 。 也 许 会 让 人 感觉 没什么 用 。 初 看 起 
来 ， 的 确 有 些 让 人 损 不 厦 头 脑 ， 下 面 头 来 一 条 元 编程 的 威力 吧 。 


2.6.1 元 编程 


前 多 我 们 看 一 个 Ruby 元 编程 的 例子 。 这 是 一 个 动态 生成 方法 的 示 
列 。 


在 Ruby 类 中 内 骨 的 attr_accessor 方法 模块 可 以 动态 生成 访问 实 
例 变量 的 方法 (参见 图 2-37) 。 在 图 2-37 简短 的 程序 中 ， 给 Person 


类 自动 生成 了 name 方法 和 age 方法 ， 也 可 以 用 它们 来 赋值 。 


class Person 
attr_accessor :name, :age 


end 


图 2-37 元 编程 的 例子 。Ruby 使 用 attr_accessor 生成 访问 实例 变量 的 方法 (这 里 是 
name 和 age ) 


重要 的 是 ，attr_accessor 并 不 是 Ruby 中 的 一 个 语句 ， 而 是 
Module 类 提供 的 一 个 方法 ， 也 就 是 说 ， 如 果 你 愿意 的 话 ， 也 可 以 目 
己 来 定义 具有 类 似 功 能 的 方法 。 


attr_accessor 内 部 进行 如 下 处 理 。 
1. 对 所 有 的 参数 作 以 下 的 处 理 。 


se 用 该 方法 可 以 访问 “@ 参 数 名 ”这 个 实 
网 变 


3. 生成 参数 名 后 加 “=” 的 方法 。 该 万 法 有 一 个 参数 ， 它 把 参数 的 值 赂 
给 “@ 参 数 名 ”这 个 实例 变量 。 


以 上 步骤 看 起 来 很 简单 ， 但 是 在 C 或 者 C++ 语言 中 是 很 难 实现 的 。 因 
为 在 C++ 等 程序 执行 时 ， 是 不 能 动态 地 全 类 增加 方法 的 。 。Ruby 可 以 像 
图 2-37 这 样 简单 地 实现 这 一 功能 。 实 际 上 attr_accessor 是 用 C 


胡言 写成 的 ， 如 果 用 Ruby 自己 来 写 这 个 方法 的 话 ， 会 像 图 2.38 的 程 
序 那样 。 


class Module 


def attr_accessor(*syms) 

syms.each do |synm| 
class_eval1 %{ 

def #{Sym} 

@#{sym} 

end 

def #{Ssym}=(val) 

@#{sym}=val 
end 


图 2-38 用 Ruby 自己 来 实现 attr_accessor 的 例子 


class_eval 方法 接受 字符 串 参 数 ， 在 类 的 上 下 文中 对 字符 串 进 行 处 
理 。 在 图 2-38 中 ， 从 %{ 到 } 之 间 的 字符 串 作为 参数 传递 给 
class_eval 方法 。 字 符 串 中 #{ 和 } 之 间 是 可 以 替换 的 标识 符 ， 会 
被 展开 成 sym 参数 所 代表 的 方法 名 ， 每 个 循环 定义 两 个 方法 。 因 此 ， 
下 面 的 调用 会 在 被 调用 的 对 象 类 中 生成 两 个 方法 : 一 个 方法 是 name 

， 用 来 访问 实例 变量 @name 的 值 ; 一 个 方法 是 name= ， 用 来 给 实例 
变量 @name 赋值 。 


attr_accessor :name 


不 文 持 元 编程 的 编程 语言 实现 这 样 的 功能 是 很 及 烦 的 。 要 么 需要 扩展 
语言 的 语法 ， 要 么 用 宏 定义 等 预 处 理 的 方法 来 实现 。 无 论 怎 样 ， 在 普 
通 语言 中 这 都 会 很 麻烦 。 


2.6.2 反射 


下 面 说 明 一 下 元 编程 的 反射 (reflection) 功能 。reflection 这 个 英语 单 
词 是 反射 、 反 省 的 意思 。 在 编程 语言 中 它 是 指 在 程序 执行 时 取出 程序 
的 信息 或 者 改变 程序 信息 。 


表 2-3 列 出 了 Ruby 的 反射 功能 ， 包 括 取得 变量 或 方法 ， 取 得 或 变更 值 
等 ， 很 丰富 。 比 如 实现 Mix-in 的 include 并 不 是 Ruby 的 语法 ， 而 
是 通过 方法 来 实现 的 。 所 以 说 Ruby 彻底 实现 了 对 程序 的 动态 操作 。 
表 2-3 Ruby 的 反射 功能 

用 


的 


列 出 对 象 的 实例 变量 Object#instance_variables 


列 出 类 /module 的 常量 
下 训 生 和 
卫队 
也 关 变量 
类 方法 史 了 
全 以 
二 到 包含 的 类 
志 下 类 的 天 关系 
后 对 承 设置 鬼子 外 
人 包 全 设 多 于 人 
方法 定义 流 罗 于 处 
reaversinoieton nethod eded | 
定义 的 方法 设置 钩子 处 理 
LE 
Object#instance_eval 

在 类 的 上 下 文中 解释 字符 串 
但是 于 有 定义 


现在 我 们 来 看 一 下 用 这 些 功能 到 撒 都 能 实现 些 什 么 。 
2.6.3 “元 编程 的 例子 


首先 看 一 下 反射 的 例子 。 


有 时 我 们 需要 把 对 一 个 对 象 的 调用 委派 给 男 外 一 个 对 象 。Ruby 用 
Delegator 这 个 库 实 现 了 委托 功能 。Delegator 对 象 中 包含 有 方法 
委托 的 对 象 ， 把 方法 调用 委派 给 委托 的 对 象 。 它 实现 了 设计 模式 中 
Proxy 模式 的 基础 部 分 。 要 使 用 Delegator 功能 ， 可 以 用 
SimpleDelegator 这 个 类 。 


require 'delegator' 


d = SimpleDelegator.new(a) 


只 用 这 两 句 束 可 以 实现 ， 调 用 对 象 d 的 方法 时 可 以 转变 为 调用 对 象 a 
的 方法 。 仅仅 是 委派 的 话 也 没有 什么 让 人 页 闪 的 ， 实 际 上 我 们 可 以 给 
这 个 对 象 增加 特异 方法 ! 来 改变 它 的 部 分 行为 ， 这 束 大 大 扩展 了 它 的 
应 用 范围 。 


1 所 谓 特异 方法 ， 是 指 类 中 没有 定义 而 只 存在 于 实例 《对象 ) 中 的 方法 。Ruby 以 外 的 其 他 语 
言 也 会 到 ° 


这 种 处 理 在 Java 中 如 何 实 现 呢 ?在 静态 类 型 编程 语言 Java 中 ， 因 为 

需要 匹配 类 型 ， 所 以 要 另外 生成 一 个 Delegator 类 ， 专 门 对 应 a 的 
类 型 来 传送 每 个 方法 调用 。a 的 方法 如 果 很 多 的 话 ， 这 将 是 很 烦琐 的 
工作 。 和 丽人 需要 用 专门 的 工具 来 自动 生成 才 行 


而 Ruby 通过 动态 类 型 的 反射 功能 第 一 个 实现 了 Delegator 。 


2.6.4 ”使 用 反射 功能 


让 我 们 来 看 看 Ruby 是 怎样 用 反射 功能 来 实现 Delegator 这 个 类 
的 。 图 2-39 是 SimpleDelegator 类 的 部 分 代码 。 为 了 容易 理解 ， 
例子 中 程序 被 大 幅度 简化 了 。 


class SimpleDelegator 


#(a) 方 法 的 初始 化 
Preserved = [" id ","object_ 
id","__send ","respond to?"] 


instance_methods .each do |m| 
next if preserved.include?(m) 
undef_method m 

end 


#(b) 对 象 初始 化 

def initialize(obj) 
Q@_sd_obj = obj 

end 


#(c)method missing 
def method _ missing(m, *args) 
unless @ sd_obj.respond_to?(m) 
super(m, *args) 


@ sd_ obj. send _(m, *args) 


#(d) 方 法 确认 
def respond to?(m) 
return true if super 
return @ sd_obj.respond_to?(m) 
end 
end 


图 2-39 SimpleDelegator 的 代码 


2-39 的 程序 分 为 4 个 部 分 。 首 先 说 明 最 重要 的 。 图 2-39c 是 
Delegator 的 核心 部 分 。Ruby 在 调用 方法 时 ， 如 果 对 象 不 知道 这 个 
方法 ， 就 会 首先 调用 method_missing 这 个 方法 。 
method_missing 的 第 一 个 参数 是 被 调用 的 方法 的 名 字 ， 剩 下 的 是 
传 给 方法 的 参数 。method_missing 的 默认 实现 是 进行 异常 处 理 
， 但 通过 重 载 ， 也 可 以 处 理 未 知 的 方法 。 接 着 说 明 下 面 的 两 个 处 
图。 


1. 被 委派 的 对 象 如 果 不 知道 这 个 方法 (respond_to?) ， 默 认 的 实现 
会 被 调用 (super) ， 发 生 错误 。 


2. 知道 的 话 ， 用 __send__ 来 调用 委派 对 象 的 方法 。 


__send _ 是 调用 委派 对 象 方法 的 方法 。 这 个 方法 的 别名 是 send ， 
由 于 send 容易 重 名 ,所 以 用 了 __send 。 


SimpleDelegator 剩 下 的 部 分 比较 容易 实现 。 就 像 刚才 说 明 的 ， 
SimpleDelegator 是 通过 method_missing 来 委派 方法 的 。 但 是 
Ruby 的 0bject 类 有 很 多 方法 ， 是 个 很 大 的 类 。 实 际 上 0bject 类 
有 40 多 个 方法 。SimpleDelegator 是 0bject 的 子 类 ， 是 知道 这 
40 多 个 方法 的 ， 也 就 不 能 委派 。 为 解决 这 一 问题 ，(a) 中 用 
instance_methods 获取 方法 的 列表 ， 除 了 几 个 必要 的 方法 ( 
id 、object id、 send 、respond_to?) 以 外 ， 了 到 
消 了 其 他 方法 的 定义 。 


(b) 用 于 设 定 SimpleDelegator 的 委派 对 象 。 (d) 是 为 了 让 
respond_ to? 可 以 正常 执行 ， 首 先 用 super 检查 目 己 的 方法 ， 然 后 
检查 委派 对 象 的 方法 。 


2.6.5 ”分布 式 Ruby 的 实现 


Delegator 将 被 调用 的 方法 直接 委派 到 其 他 对 象 ， 这 一 功能 在 很 多 领域 
都 有 应 用 。 作 为 一 个 例子 ， 我 们 介绍 一 下 dRuby (Distributed Ruby， 
分 布 式 Ruby) 。 

dRuby 是 通过 网 络 来 调用 方法 的 库 。dRuby 可 以 生成 服务 器 上 存在 的 
远程 对 象 (Proxy ) ，Proxy 的 方法 调用 可 以 通过 网 络 执行 。 


调用 的 方法 在 服务 器 上 的 远程 对 象 中 执行 ， 执 行 结果 可 以 通过 网 络 返 
回 。 这 和 Java 的 RMI (Remote Method Invocation) 功能 比较 相似 。 但 
是 ， 利 用 Ruby 的 元 编程 功能 ， 不 用 明确 定义 接口 ， 也 可 以 通过 网 络 
调用 任意 对 象 的 方法 。 

C++ 和 Java 的 远程 调用 是 用 IDL (Interface Definition Language) 等 语 
言 来 定义 接口 的 ， 上 自动 生成 的 存根 (stub) 必须 编译 和 连接 。 和 这 些 
相 比 ，Ruby 的 元 编程 更 简单 。 


dRuby 的 最 初版 本 只 有 200 多 行程 序 ， 这 也 体现 了 元 编程 的 力量 。 但 
是 现在 dRuby 作为 Ruby 的 标准 库 ， 已 经 有 2000 多 行 的 规模 了 。 


2.6.6 ”数据 库 的 应 用 
在 数据 库 领 域 ， 元 编程 也 很 有 用 。 


Web 应 用 程序 框架 Ruby on Rails 《也 称 为 Rails 或 RoR) “中 也 应 用 了 
元 编程 。 具 体 地 说 ， 在 与 数据 库 关 联 的 类 库 (ActiveRecord ) 中 ， 
利用 元 编程 简单 地 把 数据 记录 定义 为 对 象 。 


2 在 Ruby on Rails 中 ， 仅 仅 从 数据 库 定义 就 可 以 自动 生成 相关 的 程序 和 配置 文件 ， 非 常 便 
利 。 详 情 请 参阅 Rubyist Magazine (http://jp.rubyist.net/magazine/?0004-RubyOnRails ) 的 介绍 


2-40 是 ActiveRecord 定义 数据 库 的 例子 。 然 后 ， 数 据 库 中 定义 
了 表 。 图 2-41 中 演示 了 对 应 users 表 的 User 类 。 


class User < ActiveRecord: :Base 
has_one :profile 
has_many :item 

end 


class Profile < ActiveRecord::Base 


belongs_ to :user 
end 


class Item < ActiveRecord: :Base 
belongs_to :user 
end 


图 2-40 用 ActiveRecord 定义 的 记录 


CREATE TABLE ‘users ( 


‘id int(11) NOT NULL auto_increment, 
login varchar(80) default NULL, 
‘password varchar(40) default NULL， 
PRIMARY KEY( .id.) 


) TYPE=MyISAM; 


图 2-41 图 2-40 用 到 的 users 表 


从 图 2-40 中 几 行 代码 可 以 看 出 ，ActiveRecord 进行 如 下 的 处 理 。 


是 和 以 类 名 的 复数 形式 为 名 字 的 表 (users ) 关联 在 一 
EH 的 。 


2. 定义 了 从 表 的 命名 空间 (schema ) 访问 记录 的 方法 。 
3, 用 has_one、belongs_to 等 关联 定义 ， 提 供 了 访问 关联 对 象 的 
方法 。 


之 所 以 能 够 实现 这 些 处 理 ， 都 是 由 于 元 编程 功能 让 我 们 可 以 获取 类 
和 名， 在 执行 时 增加 方法 。 元 编程 的 功能 使 得 Rails 被 称赞 为 生产 效率 
高 的 Web 应 用 程序 框架 。 


当然 Rails 不 是 万 能 的 ， 也 不 能 说 比 别 的 应 用 程序 框架 都 好 。 但 是 ， 
最 大 程度 地 灵活 运用 了 Ruby 语言 的 优点 ， 从 而 确实 提高 了 生产 
By 2 o 


用 Rails， 一 瞬 眼 的 功夫 就 可 以 生成 一 个 Web 应 用 程序 ， 给 人 印象 上 
深 。 


2.6.7 输出 XML 


最 后 介绍 一 下 输出 XML 文件 的 类 库 ， 由 Jim Weirich 开发 的 
XmlMarkup。 图 2-42 是 一 个 输出 XML (参见 图 2-43) 的 简单 程 
序 o 


require 'builder/xmlmarkup' 


xm = Builder::XmlMarkup.new(:indent => 2) 
puts xm.html { 


xm.head { 
xm.title("History") 


} 
xm.body { 
xm.h1i("Header") 
xm.p { 
xm.text!("paragraph with ") 
xm.a("a Link", "href"=>"http://onestepback. 
org")} 


| 


图 2-42 XmlMarkup 输出 的 例子 


<html> 
<head> 
<title>History</title> 
</head> 
<body> 
<hi>Header</h1> 
<p> 


paragraph with <a 
href="http://onestepback.org">a 
Link</a> 
</p> 
</body> 
</html> 


图 2-43 图 2-42 的 输出 内 容 


Builder: :XmlMarkup 和 Delegator 同样 用 到 了 
method_missing 的 技巧 ， 通 过 调用 方法 从 而 输出 了 有 标签 的 
XML° 


没有 标签 的 文本 必须 用 text ! 命令 输出 。 手 工 写 XML 十 很 麻烦 的 ， 
利用 Ruby 块 功能 则 能 很 方便 地 处 理 。 


2.6.8 “元 编程 和 小 编程 语言 
到 目前 为 止 我 们 介绍 了 元 编程 功能 ， 如 果 是 你 ， 会 怎么 来 利用 它 呢 ? 


Glenn Vanderburg 3 把 它 灵 活 运用 到 了 DSL (领域 特定 的 语言 领域 。 
DSL 是 针对 特定 领域 强化 了 功能 的 小 规模 编程 语言 。DSL 是 很 早 就 有 
的 想法 ， 最 近 ， 因 为 通过 DSL 用 户 可 以 强化 应 用 程序 的 功能 或 者 定制 
本 所 以 DSL 再 次 得 到 了 关注 。DSL 主要 需要 列 于 表 2-4 的 一 
些 功 能 。 


3 请 参考 Glenn Vanderburg 的 Metaprogramming Ruby Domain-Specific Language for 
Programmers (http://www.vanderburg.org/Speaking/Stuff/oscon05.pdf ) 。 


表 2-4 小 语言 需要 必 备 的 功能 


Ry 
EE 
Fe 
Re 


名 


运算 符 (Operator) 


二 Sateen | 


蒜 制 结构 (Control Structure) 


声明 (Declaration) 与 实现 相 
自 


( 
Sm 


Ruby 本 来 就 具备 从 类 型 到 控制 结构 这 些 功能 。 许 多 DSL 小 语言 往往 
缺乏 其 中 一 些 功能 ，Ruby 反而 更 好 使 。 还 有 前 面 学 过 的 Ruby 可 以 利 
用 块 自己 定义 实现 控制 结构 的 方法 ， 这 也 是 它 的 优点 之 一 。 


剩 下 的 从 声明 到 层次 数据 等 其 他 的 功能 ，Ruby 也 都 可 以 利用 目 身 的 功 
能 来 实现 。 元 编程 对 实现 这 些 功能 起 到 了 很 大 的 作用 。 


2.6.9 ”声明 的 实现 

我 们 介绍 一 下 表 2-4 中 声明 的 实现 方法 。 

之 前 我 们 介绍 了 使 用 attr_accessor 进行 元 编程 的 例子 。 在 Ruby 
中 attr_accessor 只 是 一 个 方法 ， 但 是 我 们 也 可 以 把 它 看 做 声明 。 
另外 ，ActiveRecord 中 的 has_many 方法 ， 也 可 以 看 做 声明 ， 这 
样 的 例子 还 有 很 多 。 


Ruby 的 方法 可 以 读 取 或 改变 程序 目 身 的 状态 ， 利 用 普通 的 方法 调用 ， 
可 以 实现 其 他 编程 语言 中 声明 所 完成 的 工作 。 


从 外 部 来 看 ，Ruby 的 方法 调用 可 以 省 略 括号 ， 还 可 以 使 用 foo 这 样 
的 符号 来 表示 名 字 ， 这 些 都 使 Ruby 程序 看 起 来 像 在 使 用 声明 一 样 。 


2.6.10 上下文 相关 的 实现 


下 面 讲 一 下 上 下 文 相 关 。 上 下 文 相 关 是 指 有 些 定义 只 是 在 一 定 范围 内 
有 效 。 我 们 看 一 下 图 2-44 的 例子 。 


add_user { 


name "Charles" 
password "hello123" 
privilege normal 


图 2-44 上 下 文 相关 的 程序 示例 


这 个 例子 中 ，name 、password 等 方法 只 是 在 add_user 块 中 才 有 
效 。 也 就 是 说 ,在 add_user 的 外 部 是 看 不 到 这 些 方法 的 。 


在 Ruby 这 一 层次 上 ， 它 把 块 范围 内 的 方法 调用 对 象 换 成 了 self 。 
具体 说 来 ， 像 图 2-45 的 例子 ， 使 用 了 instance_eval 方法 。 


def add_user(&bJlock ) 


U = User .new 
# User 定义 了 name、password、 


# privilege 方法 
,Instance_eval(&block) if block 


end 


图 2-45 ”替换 图 2-44 程序 上 下 文 的 处 理 


instance_eval 方法 接受 块 作为 参数 ， 把 调用 对 象 置换 成 self 来 
执行 块 。 结 果 ， 对 图 2-44 中 块 范 围 内 的 代码 而 言 ， 默 认 的 调用 对 象 变 
成 了 User 类 的 对 象 u。 所 以 ， 在 不 指定 调用 对 象 而 调用 方法 (如 
name 等 ) 时 ， 就 会 调用 User 类 的 方法 。 


2.6.11 单位 的 实现 


在 一 般 的 编程 语言 中 ， 数 值 是 用 标量 值 来 定义 的 ， 但 这 只 是 数 本 里。 
数值 的 单位 需 程序 员 来 管理 。 


然而 ，DSL 想 要 处 理 的 不 单 是 数 ， 大 都 想 要 处 理 量 。 因 此 我 们 扩展 了 
一 些 面 向 DSL 的 库 ， 以 便 能 处 理 单 位 。 


例如 在 Ruby on Rails 中 ，Numeric 类 和 Timer 类 增加 了 处 理 时 间 单 
位 (基本 单位 是 秒 ) 的 方法 。 比 如 下 面 的 时 间 


3.years + 13.days + 2.hours 


表示 “3 年 13 天 又 2 小 时 ”， 以 秒 为 单位 就 是 整数 95 803 200。 另 外 像 
下 面 这 样 : 


4.months.from now.monday 


表示 “4 个 月 后 的 星期 一 ”。 
我 写 这 本 书 的 时 间 古 


Mon Dec 12 00:00:00 JST 2005 


这 里 只 是 举 了 一 些 与 时 间 相 关 的 例子 。 因 为 Ruby 中 可 以 给 现 有 类 目 
由 地 追加 新 方法 ， 所 以 单位 处 理 功 能 是 很 容易 实现 的 。 


2.6.12 ”词汇 的 实现 


DSL 古 针 对 特定 领域 的 ， 所 以 在 这 个 特定 领域 部 需要 什么 处 理 ， 需 要 
用 词汇 来 表现 。 针 对 特定 领域 ， 如 采用 Ruby 来 定义 需要 的 类 和 方 
法 ， 那 么 束 可 以 认为 Ruby 古 这 个 领域 的 专用 语言 。 这 些 类 和 方法 可 
以 称 为 这 个 领域 的 词汇 。 


音 用 车 名 的 程序 员 Dave Thomas 的 话 , “所 有 应 用 程序 的 开发 过 程 都 可 

以 说 是 设计 语言 的 过 程 *”。 从 这 个 观点 来 看 ， 开 发 应 用 程序 就 是 针对 应 

, < 的 问题 领域 定义 各 种 词汇 ， 最 后 用 这 些 词 汇 来 描述 解 雇 问题 的 
~ OD 


Ruby 的 方法 调用 和 块 等 具有 丰富 的 表现 力 ， 用 户 可 以 很 自然 地 用 它们 
来 定义 词汇 。 另 外 如 果 一 开始 决定 不 了 要 用 的 词汇 ， 那 么 像 
Delegator 、XmlMarkup 一 样 ， 可 以 用 method_missing 这 个 方 
法 来 动态 地 追加 和 利用 词汇 。 


2.6.13 ”层次 数据 的 实现 


最 后 说 明 一 下 表 2-4 最 后 的 层次 数据 。 前 面 的 XmlMarkup 束 是 层次 
数据 ， 我 们 可 以 再 看 一 下 图 2-42。 程 序 本 吴 看 起 来 只 不 过 二 以 块 为 参 
数 肯 套 调用 方法 ， 而 外 观 和 功能 都 漂亮 地 实现 了 数据 的 层次 化 。 


2.6.14 ”适合 DSL 的 语言 ， 不 适合 DSL 的 语言 
总 的 来 看 ，Ruby 是 非常 适合 DSL 的 语言 。 


目 先 ， 调 用 方法 的 时 候 可 以 省 略 括 号 ， 这 些 表 现 的 多 样 性 使 得 程序 看 
起 来 像 是 在 使 用 声明 一 样 。DSL 的 必要 功能 很 多 都 用 数据 构造 、 设 定 
等 声明 来 定义 ， 所 以 Ruby 对 声明 的 文 持 是 很 重要 的 。 


其 次 ， 元 编程 功能 可 以 获取 并 更 新 程序 的 信息 ， 所 以 不 必 使 用 预 处 理 
和 宏 就 可 以 实现 DSL 必要 的 功能 。 像 这 样 不 用 对 语言 进行 扩展 就 可 以 
实现 DSL 的 方法 也 称 为 “语言 内 DSL”。 


适合 语言 内 DSL 的 编程 语言 不 只 是 Ruby。 对 Ruby 影响 很 大 的 Lisp 
和 Smalltalk 也 和 Ruby 一 样 适合 DSL。 特 别 是 Lisp， 原 则 上 固定 语法 
只 有 S 式 这 种 数据 结构 表现 形式 ， 几 乎 是 可 以 构成 任何 语言 内 语言 。 


Ruby 可 以 用 eval 处 理 字 符 串 来 生成 程序 ，Lisp 则 可 以 用 宏 处 理 列表 
来 实现 对 程序 的 处 理 。 所 以 有 人 把 Lisp 称 为 Programmable 
Programming Language (可 编程 的 编程 语言 ) 。 


Smalltalk 虽然 不 像 Lisp 那样 极端 ， 但 是 它 的 动态 性 并 不 比 Ruby 差 ， 
另外 还 具有 元 编程 的 功能 。Smalltalk 的 控制 结构 本 来 就 是 用 块 来 实现 
的 ， 所 以 语法 扩展 也 是 自然 天 成 的 。 


反之 ， 有 的 编程 语言 ， 如 采 不 用 别 的 方法 就 不 容易 实现 DSL。 比 如 
C++、Java 和 C# 等 语言 驶 不 能 像 Ruby、Lisp 和 Smalltalk 那样 实现 
DSL 。 


但 这 并 不 是 说 这 些 语言 中 不 能 使 用 DSL 方法 ， 比 如 说 目 动 生成 程序 代 
码 。 甫 先 定义 好 DSL 用 的 小 语言 ， 然 后 编译 成 C++、Java 和 C# 等 目 
标语 言 。 编 译 器 经 常用 到 Ruby 这 种 具有 优秀 文本 处 理 功能 的 语言 。 
Code Generation in Action 4 一 书 讲解 了 这 个 主题 。 


4 Code Generation in Action , Jack Herrington 若 ，ISBN 1-930-11097-9。 主 要 讲解 Java 程序 的 
代码 生成 。 代 码 生成 程序 都 是 用 Ruby 写 的 ， 所 以 也 可 以 说 它 是 并 未 明说 的 Ruby 书 。 


另外 一 个 实现 DSL 方法 的 例子 是 解释 磊 。 比 如 开发 应 用 程序 时 从 设计 
到 实现 是 很 复杂 的 ， 可 以 利用 固定 的 语法 和 类 库 函 数 来 读 取 程序 。 


具体 的 方法 是 用 XML、DOM (Document Object Model) 等 XML 处 理 
类 库 来 解释 小 语言 语法 。 这 是 Java 应 用 程序 的 配置 文件 采用 XML 的 
原因 之 一 。 通 过 XML 文件 ， 不 用 每 次 编译 Java 程序 就 可 以 改变 配 
置 ， 定 制程 序 的 行为 。 


以 把 XML 称 为 Java 界 的 DSL， 或 者 是 Java 应 用 程序 的 脚 
二 吾 。 


实用 主义 


前 面 提 到 了 ， 面 问 对 象 的 概念 是 从 仿真 和 人 工 智 能 的 知识 表现 、 数 
据 结构 等 很 多 领域 独立 发 展 出 的 一 些 思 想 互相 融合 而 成 的 。 所 以 ， 
对 于 面向 对 象 的 理解 每 个 人 都 可 能 不 同 ， 也 有 过 意见 不 统一 而 频繁 
发 生 争论 的 时 期 。 


但 是 ， 在 21 世 纪 的 今天 ， 这 种 争论 已 经 不 多 见 了 。 昌 然 不 是 很 清楚 
原因 ， 不 过 以 个 人 所 见 ， 我 觉得 古 因为 面 同 对 象 已 经 变 成 了 汕 识 性 
的 设计 方法 。 


新 的 热门 话题 当然 容易 引发 搜 论 ， 但 对 第 识 性 的 东西 束 不 会 再 有 人 
争论 了 了 人。 目前， 大 多 数 编程 语言 都 具有 面 同 对 象 的 功能 ， 最 具 人 气 
的 面向 对 象 编程 语言 是 Java。 关于 面 疝 对 象 再 发 生 争 论 的 可 能 性 应 
该 没有 了 吧 。 


当然 ， 面 癌 对 象 也 分 为 儿 个 流派 。Smalltalk 派 是 发 送 消 息 ，C++ 派 

是 数据 结构 化 ， 还 有 其 他 各 种 折 中 方案 。 但 是 各 个 流派 之 间 的 所 请 

对 立 都 不 过 是 纸上谈兵 ， 体 验 了 各 种 面 问 对 象 语言 之 后 束 会 感觉 

到 ， 其 实 他 们 并 没有 什么 真正 的 对 立 。 就 像 中 国 的 一 句 俗语 说 

2 抓 到 老 姐 束 是 好 猫 *"， 面 同 对 象 编程 的 实用 性 
红 俩 十]」 ” 


就 像 20 世纪 70 年 代 曾 红 极 一 时 的 结构 化 编程 已 经 变 为 常识 不 再 成 
为 话题 一 样 ， 我 以 前 也 预想 过 面 问 对 象 编程 早晚 也 会 一 样 。 现 在 这 
一 预想 已 经 成 为 了 现实 。 


第 3 章 程序 块 
3.1 程序 块 的 威力 


让 我 们 来 说 明 一 下 Ruby 的 特色 功能 之 一 一 一 程序 块 吧 。Ruby 的 程序 
块 是 指 在 方法 调用 时 可 以 追加 的 代码 块 。 


比如 ， 在 对 数组 各 个 元 素 作 循环 处 理 时 ， 请 看 以 下 程序 。 


ary.each {|x| puts x} 


在 这 个 例子 中 ，{|x| puts x} 束 是 程序 块 。 这 一 行程 序 束 表示 把 数 
组 中 各 元 素 赋 值 给 变量 x ， 调 用 puts 函数 。 


程序 块 功能 并 非 Ruby 首创 。Ruby 只 是 把 其 他 语言 中 已 经 存在 的 功 
能 ， 在 语法 上 重新 配置 了 一 下 。 作 为 程序 块 功能 构想 的 一 部 分 ， 下 面 


我 们 将 把 其 他 语言 中 的 这 些 功 能 也 一 起 说 明 一 下 。 
3.1.1 把 函数 作为 参数 的 高 阶 画 数 


Ruby 程序 块 功能 的 原理 和 高 阶 画 数 是 一 样 的 。 高 阶 函 数 是 指 以 函数 作 
为 参数 的 轴 数 。 


为 了 实现 高 阶 沙 数 ， 编 程 语言 中 必须 把 函数 和 方法 作为 数据 来 处 理 。 
比如 说 ，FORTRAN 等 编程 语言 束 无 法 实现 高 阶 函 数 的 功能 ， 而 C 语 
| 。C 语言 是 通过 函数 指针 来 把 钞 数 作为 一 种 对 象 ' 来 处 理 


1 在 C 语言 中 ， 对 象 是 指 可 以 处 理 的 数据 。 这 种 数据 一 般 被 称 为 第 一 类 数据 (first class 
data) 。 


C 语言 的 库 函 数 中 也 用 到 了 高 阶 画 数 。 得 到 广泛 应 用 的 qsort(3) 
玉 数 束 是 一 个 噩 阶 函 数 。qsort 函数 的 参数 如 图 3-1 所 示 。 其 中 第 4 
个 参数 是 compar 画 数 的 指针 。 


2 qsort(3) 是 UNIX 使 用 手册 中 第 3 部 分 的 qsort 的 意思 。 第 3 部 分 是 库 函 数 。 另 外 ， 第 


1 部 分 是 命令 ， 第 2 部 分 是 系统 函数 调用 。 


#ijnclude <stdlib.h> 


void qsort(void *base, size t nmemb, size _t size, int (*compar) 
(const void*, const void*)); 


图 3-1 qsort(3) 的 API 的 内 容 ， 第 4 个 参数 是 compar 函数 的 指针 


在 qsort 函数 的 参数 中 ，base 是 数组 的 内 存 地 址 ，nmemb 是 数组 元 
素 的 个 数 ，size 是 各 个 元 素 的 大 小 。qsort 的 实现 用 到 了 快速 排序 
的 算法 。 为 了 排序 ， 各 个 元 素 需 要 比较 大 小 ，compar 是 比较 大 小 的 
函数 。compar 函数 有 两 个 参数 分 别传 入 要 比较 的 数据 ， 第 一 个 参数 
I 两 个 参数 值 相等 时 返回 0， 第 一 个 参数 值 小 时 返回 
人 负 值 。 


让 我 们 看 一 下 qsort 的 具体 使 用 方法 。 图 3-2 是 使 用 qsort 的 一 个 
程序 示例 。 命 令 行 的 参数 作为 要 排序 的 字符 串 传递 给 了 qsort 函数 ?5 
。 程序 的 执行 结果 如 图 3-3 所 示 。 


3 为 了 使 程序 示例 简单 些 ，argv[9] 的 程序 名 也 一 起 参加 排序 。 


#Include <stdio.h> 


int compare(void *a, void *b) 


return strcmp(*(char**)a, *(char**)b); 


int main(int argc, char ** argv) 
ie 
int 工 ; 
dsort(argv, argc, sizeof(char*), compare); 
for (i=0; i<argc; i++){ 
printf("%d: %s\n", i, argv[i]); 


return 0; 


图 3-2 qsort 的 使 用 示例 


aout 3 42567 


$ 
(©) 
1: 
2 
3 
4 
5 
6 


图 3-3 图 3-2 的 执行 结果 


因为 用 qsort 来 给 字符 串 排 序 ， 所 以 比较 函数 的 参数 用 到 了 字符 串 
(char* ) 的 指针 。 这 种 指 同 指针 的 指针 是 有 一 些 难 度 的 。 


3.1.2 C 语 言 高 阶 画 数 的 局 限 


下 面 ， 我 们 再 看 一 个 C 语言 的 例子 。Ruby 程序 有 实现 哈 希 表 的 类 库 / 


4 哈 希 是 使 用 指定 的 随机 数 作为 输入 数据 生成 值 的 方法 。 


这 个 类 库 提供 了 按 顺序 操作 哈 希 表 各 个 元 素 的 函数 st_foreach() 

( 见 图 3-4) 。st_foreach 为 每 个 哈 希 元 素 传 递 键 、 值 和 foreach 
的 第 3 个 参数 ， 一 共 3 个 参数 。 第 3 个 参数 arg 会 被 再 传送 给 func 
这 个 函数 。 为 什么 需要 arg 这 个 参数 呢 ? 


int st_foreach(st_ table *table, int (func*)(st_ data t, st_data t, 
st_data_t), 


st_data t arg); 


图 3-4 st_foreach( ) 函数 的 定义 ， 按 顺序 处 理 哈 希 表 的 各 个 元 素 


这 是 因为 在 C 语言 中 ， 实 现 函 数 间 的 信息 传递 只 有 两 种 方法 : 要么 明 
确 地 传递 参数 ， 要 么 使 用 全 局 变量 ， 没 有 其 他 方法 。 


但 是 如 采 使 用 全 局 变量 来 传递 信息 ， 吏 搞 不 清楚 什么 时 候 、 谁 在 引用 
或 者 更 新 这 一 变量 ， 也 不 能 进行 递归 调用 。 除 了 全 局 变量 之 外 ， 没 有 
别 的 办 法 在 函数 间 共 至 信息 ， 这 是 C 这 种 语言 的 局 限 。 


3.1.3 ”可 以 保存 外 部 环境 的 闭 包 


C 语言 中 的 这 种 局 限 在 Java 等 语言 中 也 是 存在 的 。 而 在 Ruby 中 ， 增 
加 了 引用 函数 外 部 变量 的 功能 。 

3-5 显示 的 是 从 列表 中 提取 出 指定 长 ?数据 的 Ruby 程序 *。 
select 是 把 块 执 行 结 采 为 真 的 数据 集中 到 数组 中 的 方法 。 所 以 ， 
high_paid 方法 可 以 返回 工资 是 150 以 上 的 数组 。 


5 应 为 指定 大 小 。 


译 者 注 


图 3-5 的 程序 引用 了 Martin Fowler 的 文章 Closure 并 且 做 了 改编 
(http://martinfowler.com/bliki/Closure.html ， 日 语 网 页 http://capsctrl.que.jp/kdmsnr/wiki/bliki/? 


ep] 


Closure ) 。 


def high_paid(emps ) 


threshold = 150 


return emps.select {lel e.salary > threshold} 


end 


图 3-5 ”从 列表 中 提取 出 指定 长 数据 的 Ruby 程序 ， 程 序 中 用 到 了 块 


和 上 文 关于 C 语言 指针 的 例子 相 比 较 束 不 难 发 现 ，Ruby 具有 以 下 两 
个 易于 使 用 的 优点 。 


。 可 以 在 使 用 的 时 候 定 义 ; 
。 可 以 引用 外 部 的 局 部 变量 。 


当然 ，Java 的 匿名 类 和 C 语言 的 函数 指针 也 能 实现 同样 的 功能 ， 但 是 
` 会 像 图 3-5 中 的 程序 那样 简练 。 

在 块 中 可 以 引用 外 部 局 部 变量 的 方法 ， 这 说 明 块 不 只 是 简单 的 程序 代 
码 ， 而 且 把 外 部 “环境 ”也 包括 了 进来 ， 像 这 样 的 块 称 为 闭 包 。 通 常 的 
局 部 变量 在 方法 执行 结束 时 就 不 存在 了 ， 但 是 如 果 被 包括 进 了 闭 包 ， 
那么 在 闭 包 存 在 期 间 ， 局 部 变量 也 会 一 直 存 在 。 

3.1.4” 块 的 两 种 使 用 方法 

让 我 们 来 详细 看 一 下 Ruby 的 块 。Ruby 的 块 是 可 以 追加 给 调用 方法 的 


代码 块 ， 块 自身 并 不 是 对 象 (对 象 化 后 的 块 是 闭 包 ) 。 参 数 传递 的 方 
法 和 普通 函数 不 同 。 仔 细 看 一 下 下 面 这 一 行程 序 。 


ary.each {|x| puts x} 


我 们 可 以 得 出 以 下 几 点 : 
。 调 用 了 ary 对 象 的 each 方法 ; 


。 没 有 普通 参数 ; 


。 附 加 了 块 。 


在 补 调 用 的 方法 中 有 两 种 方式 来 使 用 传递 过 来 的 块 。 一 种 是 用 “ 块 参 
数 ” 的 方式 明确 声明 接受 块 作为 参数 ， 男 一 种 是 使 用 yield 这 个 Ruby 
的 保留 词 。 图 3-6 演示 了 块 参数 的 使 用 方法 ， 以 及 用 块 参数 定义 数组 
循环 处 理 的 each 方法 。 


&block 是 块 参数 。 块 通过 闭 包 的 形式 个 传 递 给 了 each 方法 的 块 参 
数 。 如 果 调 用 时 参数 中 没有 块 ， 那 么 nil 会 被 作为 参数 传 入 。 在 图 3- 
6 中 ， 块 参数 的 调用 使 用 了 闭 包 的 call 方法 。 


def each(&block) 


1=0© 
while i < self.size 
block.call(self[i]) 
i+=1 
end 
end 


图 3-6 ” 块 作为 参数 的 使 用 方法 1， 定义 了 块 并 且 调 用 了 block.call 


在 图 3-7 中 用 yield 来 作 块 的 处 理 。 从 表面 来 看 ， 和 用 块 作为 参数 的 
方法 有 两 点 不 同 : 


def each() 
i=0 
while i < self.size 
yield self[i] 


i+=1 


图 3-7 块 作为 参数 的 使 用 方法 2， 用 yield 来 处 理 
。 表面 上 没有 定义 块 参数 ; 
。 用 yie1ld 代替 了 block.cal1。 


使 用 yield 时 ， 块 的 信息 只 是 保存 在 内 部 堆栈 里 ， 并 没有 用 到 闭 包 ， 
所 以 这 种 方法 的 执行 速度 比 参数 方法 稍微 快 一 些 。 另 外 ， 没 有 传递 块 
时 的 错误 提示 信息 也 不 一 样 (参见 图 3-8) “。 

7 使 用 块 参数 时 的 错误 提示 信息 不 是 很 好 理解 。 作 为 编程 语言 的 设计 者 ， 我 想 改进 但 是 还 没 
有 好 的 想法 ， 现 公开 征集 改进 方法 。 


到 


。 块 参数 版 
。yield 版 
图 3-8” 找 不 到 块 时 的 错误 提示 信息 不 同 
通过 对 两 种 方法 的 比较 ， 我 们 可 以 总 结 出 块 作为 参数 具有 以 下 二 个 人 


。 明确 表示 了 块 处 理 ; 

。 块 和 对 和 象 一 样 被 统一 处 理 ; 

。 检查 参数 是 否 为 nil 就 可 以 判断 出 是 否 传 递 了 块 参数 。 
男 外 ，yield 具有 下 面 两 个 优点 : 

。 没 有 用 到 闭 包 ， 执 行 速度 稍 快 ; 

。 错误 提示 信息 比较 容易 理解 ; 


还 有 ， 在 yield 版 本 中 判断 是 否 传递 了 块 可 以 用 下 面 的 语句 。 


defined? yield 


3.1.5 ”最 终 来 看 ， 块 到 底 是 什么 


Ruby 的 块 具 有 以 下 3 个 特点 : 
。 代码 块 可 以 作为 参数 传递 给 方法 ; 


。 在 被 调 用 的 方法 中 可 以 执行 传递 过 来 的 代码 块 ， 执 行 后 程序 的 控 
制 权 返还 给 方法 ; 


。D 块 中 最 后 执行 的 算式 的 值 是 块 的 值 ， 这 个 值 可 以 返回 给 方法 。 


块 也 可 以 被 看 做 只 是 高 阶 函 数 的 一 种 特殊 形式 的 语法 。 虽 然 只 十 稍 作 
改进 ， 但 Ruby 中 块 的 各 种 灵活 运用 的 方法 还 是 让 人 赞叹 不 已 。 


3.1.6” 块 在 循环 处 理 中 的 应 用 


最 典型 的 用 法 是 ， 在 逐个 处 理 集合 对 和 象 的 元 素 的 方法 中 使 用 块 。 下 面 
这 一 行程 序 相信 你 已 经 很 熟悉 了 。 


ary.each {|x| puts x} 


Ruby 中 几乎 所 有 的 容器 类 都 有 each 这 个 方法 。 使 用 这 个 方法 可 以 循 
环 处 理 容 右 类 中 的 所 有 元 素 。 


也 可 以 用 for 语句 来 实现 each 方法 。 


for x in ary 
puts x 


end 


这 个 例子 中 是 在 循环 内 部 调用 puts 方法 ， 和 ary .each... 的 动作 
几乎 是 一 样 的 。 


本 来 ，Ruby 就 是 为 了 要 实现 循环 功能 才 导 入 了 块 的 。 所 以 ， 在 以 前 文 
档 让 把 具 有 块 的 方法 称 为 迭代 器 (iterator) 。iterate 就 是 循环 、 送 代 
的 意思 。 但 是 ， 如 今 块 的 应 用 范围 比 当初 所 能 想到 的 要 广泛 得 多 ， 和 


循环 没有 关系 的 处 理 中 也 大 量 地 用 到 了 块 。 所 以 现在 仍 把 块 称 为 和 迭 代 
磺 加 很 不 恰当 了 。 


3.1.7 ”内 部 迭代 器 和 外 部 迭代 器 


像 Ruby 块 这 样 ， 把 对 各 个 元 素 的 处 理 逻 辑 传 送 给 容 右 类 的 方法 ， 然 
后 在 方法 中 对 容器 类 中 每 个 元 素 调用 指定 的 处 理 逻 辑 ， 这 种 太 代 方式 
称 为 内 部 和 欠 代 天 方式 。 


与 之 相对 应 ，C++ 和 Java 中 所 请 的 迭代 器 ， 古 用 别 的 类 对 象 来 循环 处 
理 容器 中 的 元 素 (参见 图 3-9) ， 这 种 循环 处 理 的 方式 称 为 外 部 送 代 
妖 方 式 。 在 外 部 迄 代 右 方 式 中 ， 把 顺序 取出 容器 中 元 素 的 对 象 称 为 达 
代 右 ， 也 称 为 游标 。 


for (Iterator i = ary_names.iterator(); i.hasNext();)t{ 
Object obj = i.next(); 


} 


图 3-9 ”Java 的 外 部 闪 代 器 示例 


内 部 送 代 器 不 用 额外 生成 类 ， 使 用 和 实现 都 很 镜 单 。 但 是 ， 对 于 不 文 
持 闭 包 的 编程 语言 ， 想 要 拥有 循环 外 部 的 信息 束 要 费 些 工夫 ， 像 在 C 
语言 中 使 用 循环 束 不 太 方 便 。 所 以 ,没有 闭 包 功 能 的 C++ 和 Java 号 采 
用 了 外 部 达 代 右 方 式 。 


男 外 ， 在 外 部 迭代 器 方式 中 容器 和 秋 代 器 天 系 密切 ， 实 现时 比较 困 
难 ， 使 用 时 的 编程 量 也 比较 大 ， 而 内 部 迭代 万 只 用 一 行程 序 束 可 以 实 
现 循环 了 。 但 是 外 部 适 代 闫 也 有 它 目 身 的 优点 。 在 从 多 个 容 郁 中 逐个 
取出 数据 进行 并 行 处 理 的 时 候 ， 外 部 和 欠 代 套 可 以 简单 地 处 理 ， 而 内 部 
迭代 右 了 驶 实现 不 了 。 


由 此 可 以 看 出 ， 外 部 迁 代 器 和 内 部 选 代 器 各 有 所 长 。 但 是 ， 如 果 编 各 
语言 支持 闭 包 功能 的 话 ， 还 是 用 内 部 迭代 器 比较 方便 8 。 


8 从 设计 模式 来 看 ， 内 部 迭代 器 是 访问 者 模式 ， 外 部 迭代 器 是 欠 代 器 模式 。 


3.1.8 在 排序 和 比较 大 小 中 的 应 用 


程序 块 可 以 像 C 语言 的 qsort 那样 ， 作 为 每 个 元 素 的 判定 条 件 来 使 
用 。 例 如 在 Ruby 中 ， 可 以 采用 如 下 的 方式 在 排序 方法 中 使 用 块 。 


ary.sort{l|a,b| a<=>b} 


如 果 和 C 语言 中 qsort 的 用 法 相 比 较 的 话 ， 我 们 就 可 以 看 到 Ruby 中 
块 的 用 法 是 多 么 简单 。 最 初 ， 如 果 在 sort 方法 中 没有 指定 块 ， 那 么 
元 素 的 比较 默认 也 是 用 <=> 算 式 的 ， 所 以 这 里 的 指定 和 默认 动作 是 一 
样 的 ， 没 有 太 大 意义 。 


现在 我 们 把 各 个 元 素 变换 成 整数 来 排序 。 


ary.Ssort{ft|layb| 
a.to_i <=> b.to i 


} 


这 也 很 价 单 。 在 没有 指定 块 的 时 候 ， 是 按照 字典 顺序 来 比较 的 。 现 在 
像 这 样 指 是 了 块 ， 那 么 束 按 照 数值 顺序 来 进行 比较 。 按 字典 顺序 比较 
时 ，10 是 排 在 1 和 2 之 间 的 ， 按 数值 顺序 比较 时 则 排 在 9 的 后 面 。 


仔细 想 想 ， 如 果 每 次 比较 都 要 做 整数 变换 处 理 的 话 ， 是 很 浪费 资源 

的 。 排 序 时 要 多 次 进行 比较 处 理 ， 比 较 的 次 数 随 着 元 素 个 数 的 增加 而 
增加 。 现 在 的 Ruby 排序 中 ， 元 素 有 4 个 的 时 候 需 要 比较 3 次 ，100 个 
元 素 需 要 比较 500 次 ，1000 个 元 素 则 需要 比较 9500 次 。 所 以 当 元 素 
村 别 多 的 时 候 ， 执 行 块 的 代码 来 进行 比较 处 理 的 代价 就 不 能 忽视 了 。 


针对 这 种 情况 ， 可 以 用 sort_by 方法 。sort_by 用 执行 块 的 代码 所 
生成 的 结果 来 排序 ， 对 每 个 元 素 只 执行 一 次 块 的 调用 。 


ary.sort_by{|x| x.to_i} 


3.1.9 ”用 块 保证 程序 的 后 处 理 


Ruby 和 别 的 编程 语言 一 样 ， 有 异常 处 理 功 能 ， 在 发 生 错 误 时 处 理 可 能 
会 中 断 。 比 如 ， 下 面 的 文件 处 理 程序 。 


f = open(path) 
.#(a) 


f.close 


如 果 (a) 的 部 分 发 生 了 异常 ， 但 文件 可 能 没有 被 关闭 。 在 这 种 情况 下 ， 
就 需要 用 Java 中 与 finally 同样 功能 的 ensure 来 保证 文件 被 关 
闭 。 


f = open(path) 

begin 

ensure 
f.close 

end 


这 样 束 变 得 很 安全 了 ， 但 是 如 来 每 次 都 这 样 写 的 话 整 会 很 烦 开 。 现 
在 ， 让 我 们 来 看 看 块 是 怎样 来 解决 这 个 问题 的 吧 。 


在 Ruby 中 ，open 可 以 用 如 下 的 写法 来 表示 。 


open(path) {|f| 


} 


如 果 给 open 方法 传递 了 块 ， 那 么 在 结束 时 文件 就 可 以 自动 关闭。 
3.1.10 ”用 块 实现 新 的 控制 结构 


如 采用 块 的 话 ， 不 需要 改变 文法 ， 束 可 以 实现 控制 结构 的 定义 。 比 如 
在 无 限 循 环 的 Loop 或 者 指定 次 数 的 循环 times 中 ， 用 块 来 实现 控制 


结构 (参见 图 3-10) 。 


pt 
# 直 到 中 断 (break) 为 止 ， 
# 否 则 块 无 限 循 环 


} 


3.times { 
#3 次 循环 


图 3-10 times 方法 的 示例 ， 用 块 实现 控制 结构 


块 还 可 以 用 于 指定 条 件 。 比 如 容器 类 的 reject 方法 把 块 处 理 中 结 
为 真 的 数据 删除 掉 ， 返 回 剩余 元 素 的 数据 (参见 图 3-11) 。 


ary = [1,2,3,4] 

# 了 删除 偶数 

ary.reject {|x| x%2 == 0} 
# => [1,3] 


图 3-11 reject 方法 的 示例 ， 用 块 来 指定 条 件 


在 图 3-12 中 ， 用 循环 来 实现 同样 的 功能 。reject 只 需要 一 行程 序 ， 
循环 却 需 要 6 行程 序 。 此 外 ，reject 程序 不 仅 很 短 ， 而 且 意 图 很 明 
确 。 


result = [] 
for x in ary 
if x%2 != 0 
result.push x 


end 
end 


图 3-12 ”用 循环 来 重 写 图 3-11 中 的 程序 


像 这 样 的 方法 Ruby 中 还 有 好 几 个 ， 其 方法 名 大 都 以 -ect 结尾 。 表 
3-1 列 出 了 从 Smalltalk 继承 的 方法 名 。 


表 3-1 和 reject 类 似 的 方法 


3.1.11 在 回调 中 使 用 块 
块 也 可 以 在 回调 中 使 用 。 图 3-13 是 利用 Tk? 的 GUI 程序 。 


9Tk 是 UNIX 中 的 GUI 工具 包 。 


3-13 的 程序 执行 时 会 显示 hello 按钮 。 按 下 的 话 ， 会 在 标准 输出 
中 显示 hello 字符 串 。 


require ‘'tk' 


# 按 钮 生成 
b = TkButton.new(:text => "hello").pack 
# 按 下 的 动作 


b.command{ puts "hello" } 
# 消 息 循环 开始 
Tk.mainloop 


图 3-13 ”回调 中 使 用 块 ， 利 用 了 Tk 


command 方法 指定 的 块 ， 会 作为 一 个 团 包 被 体 存 在 按钮 对 象 里 ， 按 下 
时 被 执行 。 


3.1.12 ” 块 处 理 的 特别 理由 
如 上 所 述 ，Ruby 的 块 具有 以 下 特点 : 
。 在 普通 参数 以 外 ， 另 外 被 传送 ; 


。 块 不 是 对 象 (lambda 方法 可 以 作 闭 包 对 象 化 ) 。 


其 他 具有 闭 包 功能 的 编程 语言 ， 比 如 Lisp 和 Smalltalk， 它 们 没有 这 样 
的 区 别 ， 总 是 把 闭 包 作为 对 象 来 处 理 。 从 这 一 点 来 看 ，Ruby 是 作 了 改 
进 。 这 到 展 是 为 什么 呢 ? 


这 有 两 个 理由 。 一 个 是 减少 对 象 的 生成 数 。 初 期 Ruby 生成 团 包 对 象 
的 代价 很 高 ， 所 以 尽量 避免 了 闭 包 对 象 的 生成 。 即 使 是 真正 必要 的 对 
象 ， 也 尽量 延迟 到 必要 的 时 候 才 生成 ， 我 通过 这 种 方式 努力 提高 程序 
性 能 ， 哪 但 是 只 能 囊 来 一 总 点 的 改善 。 


男 一 个 是 外 观 上 的 理由 。 如 果 把 块 做 成 和 Dips 或 者 Smalltalk 闭 包 一 
样 的 话 ， 那 么 each 的 外 观 就 会 像 下 面 一 愉 


ary.each ({|x|puts x}) 


i 


这 样 看 上 去 束 不 像 是 一 个 控制 结构 。Ruby 之 所 以 不 用 扩张 文法 就 可 以 
, 自然 地 追加 控制 结构 ， 是 因为 在 调用 方法 时 ， 对 块 有 着 特别 的 处 
理 。 


在 Ruby 块 的 设计 中 ， 考 虑 到 了 和 其 他 语句 的 协调 。 我 们 用 别 的 具有 
块 或 者 高 阶 画 数 的 编程 语言 来 比较 一 下 。 比 如 在 Smalltalk 语言 中 ， 所 
有 的 控制 结构 都 用 块 来 表示 。if 语句 的 写法 如 下 所 示 。 


(age < 18) ifTrue: [ adult := true | 


Smalltalk 中 方 括号 里 面 的 部 分 是 块 。 这 一 行程 序 是 用 ifTrue 来 判断 
其 真 假 的 ， 只 有 当 条 件 为 真 的 时 候 ， 后 面 的 块 才 会 被 执行 。 


男 外 ，while 语句 的 写法 如 下 所 示 。 


[i < 10] whileTrue: [ i := i+1] 


这 个 例子 里 ， 前 面 的 条 件 也 是 一 个 块 。 这 行程 序 是 在 调用 第 一 个 块 [i 
< 10] 的 whileTrue: 方法 。 


后 面 的 块 [i := i + 1] 是 这 个 方法 的 参数 。whileTrue : 方法 会 
在 第 一 个 块 为 真 时 反复 执行 第 二 个 块 。 


和 if 不 同 ， 因 为 while 语句 的 条 件 判断 也 要 反复 执行 ， 所 以 这 一 个 
部 分 整 不 能 是 单纯 的 表达 式 ， 而 需要 把 它 写成 块 。 不 客气 地 说 ， 
Smalltalk 把 循环 处 理 也 都 作为 方法 调用 ， 为 了 简化 语法 而 区 别 使 用 一 
般 的 条 件 判 断 表 达 式 和 块 ， 结 果 是 使 用 时 不 是 很 方便 。 


我 们 再 来 看 看 在 循环 中 多 用 高 阶 函 数 的 Lisp 编程 语言 。 Ruby 的 each 
在 Lisp 中 是 像 下 面 这 样 的 。 


(foreach ary (lambda (x) (puts x))) 


如 果 用 Ruby 来 写 的 话 ， 有 是 像 下 面 这 样 的 。 


ary.each{|x| puts x} 


完 不 用 说 Lisp 中 需要 很 多 括号 这 个 特征 ， 为 了 做 成 用 包 ，1Lambda 也 
BE i 
结构 。 


Lisp 中 如 采用 宏 来 退 加 控制 结构 的 话 ， 程 序 古 像 下 面 这 样 的 。 


(foreach x (puts x)) 


因为 用 宏 置 换 近 了 程序 ， 所 以 就 看 不 出 来 内 部 有 没有 使 用 高 阶 钞 数 。 
Lisp 中 高 阶 丽 数 就 是 高 阶 态 数 ， 控 制 结构 扩张 时 束 用 宏 ， 分 工 是 不 一 
样 的 。 所 以 ， 同 样 是 用 闭 包 的 语言 ， 从 语法 的 不 同 到 整个 编程 语言 
格 的 不 同 ， 都 是 很 有 趣 的 。 


虽然 有 点 “ 王 姿 卖 瓜 ， 目 卖 目 从 ” 的 意思 ， 但 Ruby 这 种 不 用 改变 语法 
就 可 以 追加 痢 控 制 结 构 的 功能 很 旦 漂 壳 。 当 然 ， 调 用 方法 时 只 能 使 用 
征 Ruby 中 的 一 个 限制 ， 得 实 际 情况 中 也 几乎 没有 必 妆 使 用 
多 个 堪 * 


3.2 ”用 块 作 循环 


Ruby 的 块 本 来 惑 是 在 循环 的 抽象 化 过 程 中 诞生 的 。 现 在 除了 循环 以 
外 ， 在 其 他 一 些 场合 也 得 到 广泛 应 用 ， 但 这 并 没有 改变 其 实现 循环 的 
初 袁 。 这 里 我 们 再 次 说 明 一 下 如 何 用 块 来 实现 循环 。 


3.2.1 块 是 处 理 的 集合 


循环 是 程序 的 基本 元 素 。 从 结构 化 编程 的 原理 上 说 ， 所 有 的 算法 都 是 
人 ° 可 以 说 处 理 好 了 循环 ， 也 就 处 
予 。 


Ruby 和 其 他 编程 语言 一 样 ， 条 件 成 立时 的 循环 也 用 while 来 表现 。 
在 这 之 外 ， 循 环 还 有 其 他 更 为 深奥 的 表现 形式 。 


首先 ，Ruby 中 有 until 语句 。until 语句 是 直到 条 < 件 成 立时 为 止 一 
直 循 环 ， 和 while 语句 正好 相反 。 如 果 只 是 until 语句 的 话 ， 并 不 
足 为 奇 ， 重 要 的 是 Ruby 还 可 以 处 理 块 ， 这 是 它 独 有 的 特点 。 


块 是 处 理 的 集合 。Ruby 中 ， 在 方法 调用 的 最 后 ， 可 以 附加 上 块 ， 比 如 
下 面 的 例子 。 


ary = [1,2,3] 
ary.each{|i| puts i} 


第 2 行 大 括号 中 的 部 分 是 块 。 这 行程 序 是 用 块 作为 参数 来 调用 数组 的 
each 方法 。 


each 方法 可 以 对 数组 的 各 个 元 又 进行 循环 处 理 。 夹 在 “|” 中 间 的 变量 
i， 可 分 别 赋值 为 <41、2、3” 中 的 各 个 元 素来 进行 块 的 处 理 。 


块 中 的 puts 是 把 对 象 加 上 换行 输出 到 标准 输出 设备 的 函数 。 在 这 
里 ， 执 行 代码 后 ， 会 一 行 一 行 地 输出 1、2、3。 


这 里 重要 的 是 ，each 方法 中 根本 不 包含 “怎样 循环 ”的 信息 。 也 就 是 
说 ，each 方法 与 数组 内 部 的 详细 实现 完全 无 关 。 


所 以 说 ,无 论 数 组 内 部 结构 是 否 变 化 ， 或 者 是 换 成 数组 以 外 的 数据 结 
构 ， 对 each 方法 的 处 理 都 没有 影响 。 因 为 each 方法 表达 的 是 “对 各 
个 元 素 进行 循环 处 理 ” 这 一 本 质 部 分 ， 所 以 上 述 变 化 对 它 没有 影响 。 
像 这 样 ， 我 们 把 和 数据 内 部 详细 实现 无 关 而 只 是 对 各 个 元 素 进 行 循环 
处 理 的 方法 称 为 循环 的 抽象 化 。Ruby 的 简洁 性 ， 不 只 是 体现 在 程序 简 
短 ， 更 重要 的 是 体现 在 对 本 质问 题 的 处 理 ， 使 得 程序 更 为 灵活 。 


用 Ruby 实现 这 种 循环 ， 实 际 上 非常 简单 。 只 是 在 块 调 用 的 地 方 ， 像 
下 面 的 程序 一 样 用 yield 来 指定 而 已 。yield 的 意思 是 转让 。 


def ary_each(ary) 
请 一 


while i < ary.size 
yield ary[i] 
end 
end 


也 可 以 用 do~end 来 定义 块 。 大 括号 和 do~end 基本 上 是 一 样 的 。 但 
是 ， 在 块 是 多 行 的 时 候 ， 用 do~end 看 起 来 和 别 的 结构 的 统一 性 更 好 
一 后 。 刚 开发 Ruby 的 时 候 ， 块 的 定义 只 有 大 括号 ， 因 为 右边 的 大 括 
号 和 end 混在 一 起 的 时 候 看 起 来 很 别扭 ， 所 以 增加 了 do~end 语句 。 
它们 两 个 使 用 方法 的 区 别 如 下 : 


。 块 是 一 行 的 时 候 用 大 括号 ， 是 多 行 的 时 候 用 do~end ; 


。 块 作为 表达 式 的 一 部 分 ， 给 方法 返回 值 时 用 大 括号 ， 块 作为 处 理 
语句 或 程序 流程 控制 的 时 候 用 do~end 。 


另外 ， 大 括号 和 do 的 结合 优先 级 不 一 样 。 大 括号 的 优先 级 更 高 。 在 
省 略 参数 的 括号 时 ， 这 种 区 别 就 会 显现 出 来 了 。 比 如 下 面 的 程序 ， 


ab {|x| puts x} 


因为 大 括号 的 优先 级 高 ， 所 以 就 认为 块 是 和 bb 结合 在 一 起 的 。 加 上 括 
号 之 后 的 程序 如 下 所 示 。 


a(b {lx| puts x}) 


反之 ， 在 下 面 的 程序 中 ， 因 为 do 的 优先 级 低 ， 所 以 b 是 和 a 结合 在 
一 友和 。 


a b dolx| puts x end 


(EA 


那么 ， 加 上 括号 之 后 的 程序 如 下 所 示 。 


a(b) do|lx| puts x end 


因此 ， 在 省 略 括号 调用 方法 时 ， 一 定 要 注意 块 的 结合 优先 顺序 。 
3.2.2 ” 块 应 用 范围 的 扩展 


现在 ， 块 被 广泛 应 用 于 各 种 各 样 的 领域 中 ， 但 最 早起 源 于 在 循环 中 的 
应 用 。 其 实 ， 我 在 最 早 介绍 Ruby 的 《面向 对 象 的 脚本 语言 Ruby》 
(1999 年 ) 一 书 中 ， 把 调用 块 的 方法 称 为 迷 代 器 。 适 代 器 就 是 循环 的 
意思 。 所 以 当时 块 主要 是 用 在 循环 里 的 。 


Ruby 块 起 源 于 20 世纪 70 年 代 夺 省 理工 学 院 (MIT) 开发 的 CLU 编 
程 语言 。CLU 中 有 迭代 器 功能 ， 用 于 循环 的 抽象 化 (参见 图 3-14) 。 


for i:int in int$from to(l,string$size(s)) do 
saa 调用 选 代 器 的 部 分 
图 3-14 ”CLU 中 的 迭代 器 


图 3-14 中 的 ijnt$ 是 调用 整数 功能 的 意思 。 在 这 个 迭代 器 中 ， 从 1 开 
始 到 string$size(s) 为 止 ， 循环 做 do 和 end 之 间 的 处 理 。 


CLU 的 迄 代 器 是 在 for 语句 中 才能 调用 的 特殊 例 程 。 该 例 程 用 
yield 语句 传递 循环 变量 ， 图 3-14 中 的 工 ， 用 于 实现 循环 处 理 。 循 
环 结束 后 ， 程 序 继续 执行 yield 之 后 的 语句 。 


从 根本 上 来 看 ， 这 和 Ruby 的 块 十 相似 的 。 但 是 因为 在 CLU 中 只 能 用 
for 语句 来 调用 迭代 郁 ， 所 以 它 的 用 法 束 受 到 了 限制 。 


在 Ruby 中 ， 不 必用 特别 的 结构 ， 在 任意 的 方法 中 都 可 以 使 用 块 ， 所 
以 不 仅仅 是 在 循环 中 ， 块 在 各 种 各 样 的 领域 中 都 得 到 了 应 用 。 从 文法 
上 的 一 个 微小 区 别 到 应 用 领域 中 的 巨大 差别 ， 这 之 中 应 该 有 很 多 地 方 
值得 我 们 深思 吧 。 


3.2.3 ”高 阶 画 数 和 块 的 本 质 一 样 


0 
JI 区 女 O 


编程 语言 要 实现 高 阶 函 数 ， 束 必须 把 图 数 或 者 方 法 作为 数据 来 处 理 。 
有 反之， 具有 这 样 功 能 的 编程 语言 束 可 以 利用 高 阶 函 数 。 


例如 ，C 语言 可 以 把 男 数 作 为 指针 来 处 理 ， 所 以 可 以 实现 高 阶 丽 数 。 
在 前 面 所 举 的 each 方法 的 例子 中 ， 我 们 可 以 把 块 看 成 是 具有 “puts 
参数 ”功能 的 匿名 画 数 ， 把 这 个 匿名 函数 作为 参数 传 地 给 each 方法 ， 
然后 在 each 方法 中 调用 这 个 匿名 函数 ， 这 吏 跟 高 阶 函 数 是 一 样 的 
了 。 


如 条 把 Ruby 的 块 看 成 是 高 阶 函 数 来 调用 的 话 ， 那 么 在 语法 上 残 有 限 
制 ， 只 能 有 一 个 函数 参数 。 而 这 市 来 的 好 处 是 ， 使 用 块 可 以 目 由 地 扩 
展 语言 的 控制 结构 。 


说 一 下 题 外 话 ， 这 里 有 一 个 有 趣 的 调查 结 采 。 在 倾向 于 使 用 高 阶 画 数 
的 OCaml 编程 语言 的 2239 个 库 函 数 中 ， 没 有 用 函数 参数 的 占 
87.2%， 用 一 个 函数 参数 的 占 12.1%， 用 两 个 以 上 画 数 参数 的 只 占 
0.7% 。 


所 以 ， 在 高 阶 丽 数 中 ，94% 都 只 有 一 个 范 数 参数 ， 有 两 个 以 上 函数 参 
数 的 是 极 少数 的 。Ruby 以 更 易于 使 用 的 形式 ， 把 只 有 一 个 函数 参数 的 
情形 在 语法 上 加 以 特殊 处 理 ， 导 入 了 块 功能 ， 这 在 设计 上 是 没有 问题 
的 ， 真 是 太 好 了 。 


3.2.4 用 Enumerable 来 利用 块 

虽然 块 的 应 用 范围 不 局 限于 循环 ， 但 我 们 还 是 重点 从 循环 讲 起 吧 。 
把 块 应 用 于 循环 抽象 化 的 ， 最 典型 的 应 该 是 Enumerable 这 个 模块 。 
Enumerable 模块 以 each 方法 为 基础 ， 为 定义 each 方法 的 类 提供 
了 多 种 功能 。 如 果 继 承 (Mix-in ) 了 这 个 模块 ， 就 可 以 很 方便 地 利 
用 它 的 各 种 功能 。 表 3-2 中 列 出 了 Enumerable 提供 的 方法 。 

表 3-2 Enumerable 的 方法 


一 


里 结果 的 数 双 


分 别 对 前 后 n 个 元 素 进行 块 处 理 
1.8.7) 


find_all {|x|...} 


grep(pattern) 


grep(pattern) {|x|...} i 匹配 的 妆 进行 块 处 理 
日 a 3 EG 


include?(x) 


inject {|x, y|...} 
inject(init) {|x, y|...} 


AS 
上 
本 


map {|x|...} 元 素 的 块 处 理 结果 的 数组 


块 把 真 假 元 素 分 离 


EE 结果 为 假 的 元 到 


里 结果 为 真 的 元 素 集 


Enumerable 的 意思 十 可 数 的 。 它 是 对 数组 等 各 种 集合 的 元 素 做 循环 
处 理 的 方法 的 集成 。 这 些 方法 大 致 可 以 分 为 以 下 几 类 : 


。 循环 

。 指定 条 件 

。 排序 、 比 较 大 小 
我 们 来 看 看 Enumerable 的 功能 和 这 些 功能 的 使 用 方法 吧 。 
循环 


循环 处 理 的 基本 方法 是 each。 在 下 面 的 程序 中 ， 假 定 col 是 个 集合 
对 象 ， 首 先 把 各 个 元 素 值 赋值 给 变量 x ， 然 后 执行 puts x。 


col.each {|x| puts x} 


必须 要 注意 的 是 ，each 并 没有 在 Enumerable 中 定义 。 反 过 来 ， 
Enumerable 中 的 所 有 方法 都 是 在 内 部 调用 each 来 实现 的 。 


只 要 是 可 以 用 each 方法 对 各 个 元 素 进行 循环 处 理 的 对 象 ， 用 
include 包含 了 Enumerable 就 可 以 使 用 表 3-2 中 所 表示 的 各 种 方 
法 了 。 


循环 方法 中 最 简单 的 是 each_with_index 方法 。 它 把 元 素 和 下 标 一 
起 传递 给 循环 处 理 方法 。 


"b","c"].each ie tn 
ee '%d: %s\n", i, x 


["a 
} 
# 
# 
# 
# 


最 常用 的 方法 之 一 是 collect 。collect 是 对 各 个 元 素 执行 块 处 
理 ， 返 回 处 理 结果 的 数组 。 块 的 执行 结果 束 是 块 中 最 后 一 个 表达 式 的 
值 。 比 如 下 面 的 程序 : 


[1,2,3] .collect{|x| 
Xx*2 


在 Ruby 的 Enumerable 中 , 像 collect 、select 和 detect 等 


方法 一 样 名 字 以 -ect 来 结尾 的 方法 有 很 多 。 这 些 方法 名 是 继承 目 
Smalltalk 的 方法 名 。collect 的 别名 map 也 是 继承 目 Lisp 编程 语言 
中 的 方法 名 。 


zip 是 把 多 个 集合 中 的 元 素 同时 取出 来 的 方法 。 具 体 请 看 下 面 的 例 


去 果 


Q 
b 
Q， 
# 
#[[1,2], [2,4],[3,6]] 


不 用 块 来 调用 zip 时 ， 它 返回 一 个 数组 ， 数 组 中 第 n 个 元 素 是 由 每 个 
集合 的 第 n 个 元 聚 所 构成 的 数组 。 男 外 ， 如 果 用 块 来 调用 zip 的 
话 ， 它 就 把 每 个 集合 的 第 n 个 元 素 一 起 传递 给 循环 处 理 。 


[1, 2,3] 
[2, 4,6] 
.Zip(b) {lx,y| 
printf "[%s,%s]\n",x,y 


输出 

[1,2] 
[2,4] 
[3,6] 


grep 方法 可 以 对 集合 中 的 元 素 进 行 模式 匹配 。 匹 配 用 === 运 算 符 来 表 
示 。 没 有 指定 块 的 时 候 ， 返 回 集合 中 匹配 元 素 (=== 运 算 符 返 回 真 ) 
的 数组 。 如 果 指 定 了 块 ， 和 zip 一 样 ， 就 把 各 个 匹配 的 元 素 传 递 给 块 
来 处 理 。 


要 三 ["foo", "bar", "baz"] 


a.grep(/^b/) 
# 结 果 是 以 bp 开头 的 元 素 
#["bar", "baz"] 


a.grep(/^b/) {|x| 
printf "%s\n",x 


条 件 指定 

对 集合 的 各 个 元 聚 进 行 块 处 理 的 是 循环 型 的 方法 。 和 它 相 对 的 ， 对 各 
个 元 素 进 行 块 处 理 ， 把 块 处 理 的 结果 作为 下 个 动作 的 判定 条 件 的 方法 
征 条 件 指定 型 方法 。 


条 件 指 定型 方法 中 最 常用 的 是 select 方法 。select 方法 把 块 处 理 
结果 为 真 的 元 素 存 放 在 数组 中 返回 。 这 个 方法 的 别名 是 find_all 。 


a 二 [1, 2,3,4] 


和 select 相反 的 方法 是 reject 。reject 方法 返回 块 处 理 结果 为 
假 的 元 素 的 数组 。 


a = [1,2,3,4] 
a.reject{|x| x%2 == 0} 
# 结果 (奇数 ) 

# [1,3] 


如 果 想 找 出 第 一 个 满足 条 件 的 元 素 ， 就 可 以 用 detect 方法 。 它 的 别 
名 是 find 。 


x%2 == 0} 


人 偶数 ) 


真 假 结果 都 需要 的 情况 也 不 能 说 没有 。 这 样 一 个 八 面 玲珑 的 方法 是 
partition。partition 方法 返回 真 的 和 假 的 元 素 的 数组 。 


一 [1,2,3,4] 
partition{|x| x%2 == 0} 
| 


a 
Q， 
# 结果 
# 


[[2,4], [1,3]] 


全 部 元 素 是 否 都 为 真 ， 或 者 至 少 有 一 个 元 素 为 真 的 判断 方法 是 a11? 
和 any? 。 


[true,true] 
[false, true] 
# => true 
# => false 
# => true 
# => true 


all? 和 any? 可 以 用 块 处 理 的 结果 作为 判定 条 件 。 


c = [1,2,3] 
c.all?{|x| x%2 == 0} # => false 
c.any?{|x| x%2 == 0} # => true 


排序 与 比较 大 小 
有 一 些 方法 是 用 对 块 操 作 的 结果 来 比较 大 小 。 


其 中 min 和 max 返回 集合 中 最 小 和 最 大 的 元 素 ， 如 果 指 定 有 块 的 
话 ， 就 用 块 来 比较 两 个 元 素 的 大 小 。 比 较 用 <=> 运算 符 ，a>z 的 时 候 
返回 正 数 ，a =b 时 返回 零 ，a <b 时 返回 负数 。 


ary 二 Di ee Ba a i | 
ary .max 
二 > "eo" 


ary.max{|a,b| a.to_i <=> b.to_ i} 
二 > 和 


sort 方法 是 把 集合 的 元 素 按 照 从 小 到 大 的 顺序 排序 ， 和 min 一 样 可 
以 传递 信用 于 比较 大 小 的 块 。 


"6"] 
i a. to _ i <=> b.to_i} 


但 是 ， 块 处 理 的 调用 是 要 花费 时 间 的 ， 而 且 在 排序 的 时 候 ， 与 其 说 是 
比较 两 个 元 素 ， 更 多 的 时 候 是 对 每 个 元 素 进 行 某 种 处 理 (取得 某 个 属 
性 等 ) ， 用 处 理 的 结果 来 排序 。 另 外 ， 不 要 每 次 在 比较 的 时 候 都 调用 
块 处 理 ， 先 一 次 性 把 全 部 的 元 素 都 处 理 好 ， 然 后 用 处 理 结果 来 排序 党 
常会 更 快 。Ruby 的 sort_by 方法 就 古 用 这 种 方式 来 排序 的 。 


[0 6] 
ort by{ |x|” Xx. to _i} 


pe We 
Pp 


Qa p=3 
a .SO 
# 结果 
# ["1 


14 0 pA "06 wm i 
了 了 了 


从 最 新 版 本 的 Ruby 1.8.7 (也 包括 1.9) 开始 ，Ruby 也 提供 了 跟 min 
和 max 方法 一 样 用 块 来 指定 比较 方法 的 min_by 和 max_by 方法 。 


3.2.5 “Enumerable 的 局 限 


像 上 面 介绍 的 那样 ，Enumerable 提供 了 以 循环 为 基础 的 方法 ， 但 是 
Enumerable 也 有 它 的 缺点 ， 主 要 的 两 个 缺点 是 : 循环 都 依赖 each 
方法 ， 而 且 不 能 并 行 执行 。Enumerable 可 以 用 each 方法 简单 地 实 
现 循环 ， 但 是 反 过 来 说 ， 这 也 是 它 的 一 个 局 限 。 


比如 字符 串 。 对 字符 串 实 行 循 环 时 ， 可 以 想到 的 组 合 单位 有 文字 、 行 
或 字 节 。 根 据 不 同情 况 需 要 的 单位 可 能 不 一 样 ， 所 以 不 能 说 哪 种 单位 
是 正确 的 。String 类 是 字符 串 ， 所 以 可 能 很 多 人 会 觉得 它 的 单位 是 
文字 。 但 是 ， 在 Ruby 1.8 中 ， 它 是 以 行为 单位 来 循环 的 。 在 Ruby 1.9 
中 ， 为 了 强调 “没有 最 好 的 方案 ”， 我 们 条 断 决 定 String 类 不 再 继承 
Enumerable 模块 。 对 于 循环 时 要 用 什么 单位 ， 可 以 分 别 用 


each_char 、each_line 或 each_byte 等 这 些 不 同 的 方法 来 定 
本 


顺便 再 说 明 一 下 ， 在 Ruby 1.8 中 ， 和 大 多 人 想象 的 不 同 ， 字 符 串 的 
each 方法 是 以 行为 单位 来 循环 的 。 


以 文字 为 单位 来 循环 时 用 each_char 方法 (从 1.8.7 版 开始 提供 ) ， 
以 字 节 为 单位 来 循环 时 用 each_byte 方法 。 但 是 ，Enumerable 模 
块 提供 的 方法 就 不 能 用 这 些 单位 来 处 理 了 。 这 就 是 Enumerable 只 依 
存 于 each 方法 的 局 限 性 。 


循环 不 能 并 行 处 理 这 一 点 是 Ruby 块 所 共有 的 局 限 性 。Ruby 的 方法 接 
受 块 参 数 ， 在 方法 内 部 进行 初始 化 、 条 件 判 断 等 循环 处 理 ， 再 回 过 头 
调用 块 的 处 理 ， 这 种 循环 处 理 被 称 为 内 部 迭代 做 。 这 种 方法 定义 简单 
且 容 易 理解 ， 但 是 如 采 从 多 个 对 象 逐 个 取出 元 素来 处 理 的 话 ， 束 没有 
别 的 办 法 ， 只 有 把 这 所 有 对 和 象 的 元 素 变 成 一 个 数组 时 ， 才 能 从 第 工 个 
开始 逐个 处 理 。 


相反 ， 在 Java 或 者 C++ 中 ， 对 于 回 量 (vector) 等 循环 处 理 对 象 ， 是 
先 从 中 取出 指定 循环 位 置 的 对 象 “游标 "?， 然 后 通过 这 个 对 象 对 各 个 元 
素 进 行 循 环 。 这 种 通过 外 部 对 象 进行 循环 的 机 制 称 为 外 部 迭代 器 。 外 
0 所 以 其 机 制 很 复杂 ， 定 义 很 困 
难 。 


男 外 ， 调 用 方 每 次 都 要 作 游 标的 初始 化 和 条 件 判断 (是 否 还 有 下 一 个 
元 素 ) ， 然 后 取出 下 个 元 素 ， 所 以 使 用 方法 变 得 很 复杂 。 但 是 这 样 做 
的 好 处 是 ， 同 时 从 多 个 对 象 取 出 元 素 进行 处 理 的 程序 很 好 写 ， 而 这 正 
征 内 部 迭代 万 难于 处 理 的 情形 。 


我 在 最 初 设 计 Ruby 时 就 已 经 知道 有 这 些 问题 ， 但 是 因为 它们 并 不 频 
繁 发 生 ， 所 以 不 是 很 重视 。Ruby 1.8.7 版 以 后 提供 了 Enumerator 
类 ， 同 时 解决 了 以 上 两 个 问题 。 表 3-3 中 是 Enumerator 类 (正确 地 
说 应 该 是 Enumerable: :Enumerator 类 ) 的 方法 一 览 。 


表 3-3 Enumerator: :Enumerator 的 方法 


指定 的 方法 把 元 素 送 给 块 去 处 理 


with_index 调用 块 时 附加 上 下 标 
回 下 一 个 元 素 (没有 时 则 发 生 异 


在 Ruby 1.8.7 版 以 后 ， 如 采 不 传递 块 的话 ，Enumerable 模块 几乎 所 
有 的 方法 都 返回 Enumerator 。 然 后 Enumerator 对 象 提 供 基于 该 
方法 的 循环 ， 而 不 用 each 。 所 以 ， 在 对 字符 串 以 字 节 为 单位 循环 ， 
求 最 大 字 太 值 时 ， 可 以 用 下 面 的 程序 。 


str.each_byte.max 


方法 中 即使 没有 返回 Enumerator 的 功能 ， 也 可 以 使 用 enum_for 
方法 得 到 Enumerator 对 象 。 例 如 ， 想 取得 基于 each_byte 的 
Enumerator ， 可 以 用 下 面 的 程序 。 


str.enum for(:each_byte) 


调用 块 处 理 时 ， 如 果 有 第 几 个 元 素 是 否 存在 这 样 的 索引 信息 的 话 ， 就 
会 很 方便 ， 比 如 在 数组 前 后 的 元 素 也 一 起 参与 计算 的 时 候 。 对 于 
each ， 以 前 提供 了 enum_with_index 方法 ， 但是， 如 果 对 each 
以 外 的 方法 ， 比 如 map ， 也 都 要 分 别提 供 这 样 的 方法 的 话 ， 就 会 没有 
穷尽 的 ， 所 以 就 没有 为 这 些 方法 提供 相应 的 带 索 引 的 方法 。 但 今后 ， 
像 下 面 这 样 : 


ary.map.with_index{|x,i| 
[x,i] 


把 块 处 理 省 略 掉 ， 用 .with_index 这 样 的 方法 ， 就 可 以 给 
Enumerable 的 所 有 循环 方法 传递 索引 了 。 


最 后 ， 至 于 同时 并 行 处 理 ， 其 实 Enumerator 也 可 以 作为 外 部 迭代 器 
来 使 用 。 首 先 取 得 Enumerator 对 象 ， 然 后 调用 .next 方法 就 可 以 

按 顺 序 逐 个 取出 块 应 该 返回 的 要 素 。 提 供 循环 的 一 方 只 需 像 平常 一 样 
定义 自己 的 内 部 迭代 器 ，Enumerator 类 会 自动 把 它 转 换 成 外 部 迭代 
器 (内 部 处 理 相 当 复 杂 ) 。 


比如 我 们 看 一 下 下 面 的 这 个 zip 方法 。Enumerable 提供 的 zip 方 
SR 然后 把 这 些 元 素 作 为 一 个 数组 传 
递 进来 。 


[1,2,3].zip([2,4,6],[3,6,9]){|x| p x} 


如 果 用 Ruby 来 定义 zip 方法 的 话 ， 到 目前 为 止 ， 因 为 没有 提供 外 部 
达 代 器 ， 所 以 只 能 在 内 部 把 参数 变换 成 数组 来 对 应 (参见 图 3-15 的 上 
半 部 分 ) 。 把 参数 作成 数组 ， 有 以 下 两 个 问题 : 


1 把 参数 变 成 数组 的 版 本 


module Enumerable 
def zip(*args) 
n= 0 
args = args.map{l|a| a.to_a} 
self.each dol|x| 
yield [x, *args.map{l|a|l a[n]}] 
n += 1 


2 使 用 外 部 迭代 器 的 版 本 
module Enumerable 
def zip(*args) 
args = args.map{|al| a.enum for(:each)} #(a) 
self.each dolx| 
yield [x, *args.map{l|al 
a.next rescue nil #(b) 


end 


图 3-15 Ruby 定义 的 zip 方法 
。 大量 的 数据 变换 成 数组 会 造成 内 存 浪费 ; 
。 不 能 处 理 无 限 循 环 的 Enumerable 。 


zip We 各 参数 的 元 隶 ， 所 以 受到 了 内 部 迭代 需 
的 制约 。 


但 是 ， 在 Ruby 1.8.7 版 以 后 ， 由 于 提供 了 Enumerator 功能 ， 程 序 可 
以 写成 如 图 3-15 的 下 半 部 分 那样 。 


首先 ，1 的 部 分 不 要 变换 成 数组 ， 而 是 用 enum_for 方法 变换 成 以 
each 为 基础 的 Enumerator 。 如 果 是 Ruby 1.8.7， 这 部 分 可 以 通过 
调用 没有 块 的 each 方法 来 实现 ， 但 是 如 果 是 用 户 自 己 定 义 的 类 ， 调 
用 没有 块 的 each 方法 ， 有 可 能 并 不 返回 Enumerator 。 所 以 用 
enum_for 方法 才 是 安全 的 。 


2 的 部 分 是 从 Enumerator 里 面 把 元 素 一 个 个 取出 来 。Ruby 的 zip 
方法 的 规格 是 ， 如 果 后 面 已 经 没有 元 素 了 ， 那 么 要 加 入 一 个 nil ， 所 
以 这 里 用 rescue 来 捕捉 没有 元 素 时 的 异常 (StopIteration 异 
常 ) ， 传 递 nil。 用 Enumerator 的 版 本 和 不 用 Enumerator 的 版 
本 动作 上 没有 什么 区 别 ， 参 数 如 果 是 很 大 的 集合 ， 不 用 Enumerator 
的 话 ， 就 要 把 参数 变换 成 数组 ， 从 而 会 消耗 大 量 内 存 。 


3.3 ”精通 集合 的 使 用 


本 来 导入 块 功 能 的 目的 整 古 对 集合 中 的 多 个 对 象 作 循环 处 理 。 块 功能 
和 集合 结合 起 来 束 能 发 挥 更 大 的 作用 。 所 以 在 这 里 ， 既 作为 一 个 复 
习 ， 又 学 习 一 下 Ruby 集合 的 使 用 方法 。 


集合 可 以 看 做 是 多 个 对 象 的 容器 。Ruby 标准 库 里 面 提 供 了 一 些 集合 
。 比较 典型 的 是 Array 和 Hash 类 。 这 里 我 们 以 这 两 个 类 为 中 心 来 讲 
年 O 


3.3.1 ”使 用 Ruby 的 数组 


Array 本 意 是 整整 齐 齐 排列 在 一 起 的 东西 ， 数 组 实际 上 也 很 像 这 个 样 
子 。 比 如 包括 整数 1、2、3 的 数组 可 以 表示 成 图 3-16 的 样子 。 


图 3-16 数组 的 概念 


请 注意 这 些 整数 并 不 在 格子 中 。 刚 才 说 过 了 ， 集 合 是 个 容 船 ， 其 实数 
组 中 并 没有 放 入 对 象 ， 而 是 可 以 用 数组 去 引用 各 个 对 象 。 


生成 数组 的 方法 有 多 个 ， 最 简单 的 是 使 用 数组 表达 式 。 数 组 表达 式 是 


用 去 号 隔 开 排列 在 一 起 的 表达 式 ， 并 用 [] 括 起 来 。 图 3-16 中 数组 的 定 
义 方法 如 下 有 所 示 * 


AAA 


在 动态 语言 ' Ruby 中 ， 集 合 中 可 以 混合 存在 各 种 类 型 的 对 象 。 所 以 可 
以 定义 复杂 的 数组 。 


1 与 Java 这 样 的 静态 语言 不 同 ， 动 态 语言 总 可 以 调用 相同 的 方法 ， 与 继承 无 关 。 


[1, "two", [3,4]] 


上 面 的 例子 中 ， 数 组 的 第 1 个 元 素 是 1， 第 2 个 元 素 是 字符 串 two ， 
第 3 个 元 素 则 是 一 个 数组 。 


像 下 面 这 样 引用 数组 元 素 。 第 1 行程 序 是 初始 化 ， 第 2 行 是 引用 。 


ary = [1,2,3] 
ary[0] 


| | 


沿用 了 C 语言 的 习惯 ， 最 前 面 的 元 素 的 下 标 用 0。 元 素 的 下 标 也 可 以 
用 人 负数 来 指定 。 最 后 的 元 素 的 下 标 是 -1 (参见 图 3-17) 。 


5 i 


图 3-17 数组 的 下 标 


不 仅 可 以 取出 一 个 元 素 ， 而 且 可 以 取出 一 部 分 元 素 。 范 围 的 指定 方法 
如 图 3-18 所 示 。 请 注意 .. 和 ... 的 不 同 ， 具 体 请 参照 图 3-19。 


头 元 素 的 位 置 和 元 素 个 数 
头 元 素 和 末尾 元 素 的 位 置 (包括 末尾 的 元 素 ， 
头 元 素 和 末尾 元 素 的 位 置 (不 包括 末尾 的 元 素 ) 


JCY 


yl 
过 


范围 的 元 素 的 3 种 方法 


图 3-18 ”取得 


a[1,2] # => [2 3] 从 下 标 为 1 的 元 素 开始 取 两 个 元 素 
a[1..2] # => [2,3] 取 下 标 为 1 到 下 标 为 2 之 间 的 元 素 
a[1...2] # => [2] 取 下 标 为 1 到 下 标 为 2 之 前 的 元 素 


图 3-19 ”取出 部 分 元 素 的 示例 
修改 元 素 值 用 下 面 的 方法 ， 给 数据 元 素 赋 值 。 


组 变 为 [2, 5,6] 


3.3.2 ”修改 指定 范围 的 元 素 内 容 


和 引用 一 样 ， 也 可 以 指定 范围 来 修改 元 素 的 内 容 。 在 赋值 式 的 右 端 指 
定 要 替换 的 对 象 数组 。 


例如 下 面 的 例子 ， 要 替换 从 下 标 为 1 的 元 素 开 始 的 0 个 元 隶 ， 结 采 是 
把 右边 的 数据 插入 到 下 标 为 1 的 元 素 前 面 。 


b[1,9] = [8,9] 


# 数 组 变 为 [2, 8, 9, 5,6] 


数组 的 长 度 也 目 动 调整 。 下 面 的 例子 中 ， 玲 换 下 标 为 4 到 下 标 为 4 之 
间 的 元 素 ， 所 以 只 有 下 标 为 4 的 元 素 被 置换 。 


b[4..4] = [1] 
# 数 组 变 为 [2, 8, 9, 5, 1] 


下 面 的 例子 中 ， 奉 换 从 下 标 为 3 到 下 标 为 4 之 前 的 元 素 ， 所 以 只 有 下 
标 为 3 的 元 素 补 置换。 


b[3...4] = [3] 


# 数 组 变 为 [2, 8, 9, 3, 1] 


和 C 语言 、Java 语言 相 比 ，Ruby 的 数组 具有 以 下 特点 。 
。 Ruby 的 数组 是 对 象 ， 可 以 调用 各 种 方法 。 
。 用 [] 访 问 数组 实际 上 是 方法 调用 。[] 是 方法 名 ， 里 面 的 值 是 参 
类。 


数 


。 变更 数组 元 素 实 际 上 也 是 方法 调用 。[]= 是 方法 名 ， 里 面 和 右边 
的 值 是 参数 。 


3.3.3 ”Ruby 中 的 哈 希 处 理 


哈 希 是 一 个 典型 的 集合 ， 像 数组 一 样 被 广泛 使 用 。 它 用 来 表现 对 象 和 
。 哈 希 表 可 以 用 哈 希 式 来 生成 。 图 3-20 中 是 定义 星期 
J 哈 希 式 。 


nH 二 > "Sunday", 
期 1 二 > "Monday", 

" => "Tuesday", 

" => "Wednesday", 
" => "Thursday", 
ui 二 > "Friday", 

" => "Saturday"} 


二 


/于 
县 
年 
中 县 
年 
中 县 
年 
中 县 
年 
中 县 
年 


图 3-20 定义 星期 关系 的 Hash 式 


这 种 对 应 关系 束 像 子 典 一 样 ， 所 以 蛤 希 被 称 为 字典 也 是 基 于 这 个 原 
因 。 男 外 ， 由 “星期 天 ”可 以 联想 到 “Sunday”， 哈 希 是 这 种 联想 关系 的 
排列 ， 所 以 也 称 为 天 联 数组 。 


哈 硕 表 只 是 单 向 关联 。 所 以 上 面 的 例子 只 是 从 汉语 到 英语 的 对 应 关 
系 ， 并 没有 从 英语 到 汉语 的 对 应 关系 。 相 当 于 字典 词 条 的 部 分 称 为 
键 ， 翻 译 解释 的 部 分 称 为 值 。 


哈 硕 表 被 称 为 天 联 数组 还 有 一 个 原因 。 前 面 已 经 说 明 哈 希 古 联想 关系 
的 排列 。 另 外 ， 数 组 可 以 看 成 是 从 整数 〈 下 标 ) 到 值 的 对 应 关系 ， 可 
以 把 数组 解释 成 整数 键 的 关联 数组 。 


其 实 ， 在 AWK 编程 语言 中 数组 和 关联 数组 是 一 样 的 ， 下 标 不 是 整数 
和 
数组 。 


数组 的 元 素 是 按照 下 标的 整数 顺序 排列 的 ， 作 为 数据 结构 ， 哈 希 表 中 
元 素 的 顺序 则 是 不 定 的 。 从 Ruby 1.9 开始 ， 哈 希 表 开始 记录 元 素 的 顺 
序 ， 即 元 素 的 插入 顺序 。 从 哈 希 表 中 取出 元 素 的 时 候 ， 顺 序 是 由 内 部 
实现 决定 的 ， 很 难 预测 。 这 是 内 部 算法 的 限制 。 哈 希 算 法 是 很 巧妙 的 
2 
哈 希 表 。 


2 O(1) (O one) 是 算法 复杂 度 表示 法 定义 的 算法 速度 。 算 法 复杂 度 和 括号 内 的 算式 成 正比 。 


除了 键 值 可 以 不 是 整数 ， 哈 硕 表 和 数组 没有 太 大 的 区 别 。 假 定 h 是 指 
癌 哈 布 对 象 的 变量 ，key 十 键 ， 束 可 以 用 下 面 的 表达 式 取出 键 所 对 应 


变更 哈 希 表 元 素 的 时 候 ， 写 法 也 是 和 数组 一 样 的 。 


h["key"]="value" 


3.3.4 ”支持 循环 的 Enumerable 


如 有 果 只 有 引用 和 变更 元 素 这 些 基 本 功能 的 话 ， 那 么 也 束 没 有 什么 值得 
特别 关注 的 。C 语言 和 Java 语言 也 有 数组 。Ruby 中 提供 的 方法 可 以 
更 好 地 发 挥 集合 的 作用 。 


Ruby 中 ， 集 合 的 功能 都 定义 在 Enumerable 这 个 Mix-in3 中 了 。 
从 另 一 个 角度 来 说 ， 只 要 把 Enumerable 模块 通过 Mix-in 继承 进 
来 ， 就 可 以 使 用 集合 对 象 的 大 量 方法 了 。 表 3-4 中 列 出 了 
Enumerable 提供 的 方法 。 

3 Mix-in 是 抽象 类 之 一 。 既 具有 单一 继承 的 方法 构成 和 优先 顺序 的 明确 性 ， 又 可 以 像 多 重 继 
承 一 样 继承 多 个 类 。 


表 3-4 Enumerable 提供 的 方法 


是 否 全 部 为 真 


是 否 对 有 的 元 素 为 真 


为 真 的 第 1 个 元 素 


[5 


each_with_index{|x,i|...} | 按照 下 标 顺 序 对 各 个 元 素 处 型 


find_all{|x|...} 


grep(pattern) i 妆 
grep(pattern){|x|...} 配 共 用 进行 块 处 理 


include?(x) 


inject{|x,y|...} 


inject(init){|x,y|...} 


map {|x|...} 各 元 素 的 块 处 理 结果 的 数 双 


用 块 变换 后 的 最 大 的 元 素 (Ruby 1.9) 


最 小 的 元 素 


mli 


n 
min {la,b|...} 块 比较 出 的 最 小 的 元 素 


EXT 
er 

EE 
1 


Enumerable 的 意思 是 可 数 的 ， 所 以 集成 了 对 集合 各 元 素 进行 循环 处 
理 的 方法 。 这 些 方法 大 致 可 以 分 为 以 下 3 类 : 


。 循 环 


。 指定 条 件 


。 排序 与 比较 大 小 
3.3.5 “用 于 循环 的 each 方法 
循环 处 理 的 基本 方法 是 each 。 下 面 的 程序 中 是 把 col 作为 集合 的 例 
子 。 


col.each {|x| puts x} 


把 各 个 元 素 值 赋 给 变量 x ， 然 后 执行 puts x。 但 是 在 Enumerable 
中 并 没有 定义 each 方法 。 反 之 ，Enumerable 中 的 所 有 方法 都 是 在 
内 部 调用 each 方法 来 实现 的 。 


只 要 是 可 以 用 each 方法 对 各 个 元 素 进 行 循环 处 理 的 对 象 ， 如 果 用 
include 包含 了 "Enumerable ， 就 可 以 使 用 表 3-4 中 所 表示 的 各 种 
方法 了 。 使 用 起 来 是 非常 方便 的 。 


循环 方法 中 最 简单 的 是 each_with_index 方法 。 它 的 处 理 是 在 对 元 
素 循环 时 加 上 下 标 (图 3-21) 4。 
4 如 果 要 执行 图 3-21 中 的 Ruby 程序 ， 可 以 把 图 3-21 中 的 内 容 保 存在 zu5.rb 文件 中 ， 然 后 执 


行 Linux 的 命令 $ruby zu5.rb。 但 是 ， 必 须要 像 Fedora Core 4 那样， 安装 了 Ruby 的 环境 
才 可 以 。 


["a","b","c"].each with_ index{|x,i| 
printf "%d: %s\n", i, x} 
# 输出 


图 3-21 each with_index 的 示例 


另外 ， 最 常 用 的 方法 之 一 是 collect 。collect 是 对 各 个 元 素 执 
行 块 处 理 ， 返 回 处 理 结果 的 数组 。 块 的 执行 结果 是 块 中 最 后 一 个 表达 
式 的 值 。 比 如 下 面 的 程序 。 


在 Ruby 的 Enumerable 中 , 像 collect 、select 和 detect 等 


方法 一 样 ， 名 字 以 -ect 结尾 的 方法 有 很 多 。 这 些 方法 名 是 继承 自 
Smalltalk 的 。collect 的 别名 map 也 继承 自 Lisp 编程 语言 中 的 方法 
名 。 

3.3.6 ”使 用 inject 、zip 和 grep 

下 面 介绍 几 个 不 同 于 循环 的 方法 。 


inject 是 用 块 来 把 各 个 元 素 结合 起 来 。 用 语言 很 难 解释 清楚 ， 请 看 
3-22 中 的 示例 。 输 出 的 结果 是 120。 


ary = [1,2,3,4,5] 


p ary.inject{|n,i| n * i} # => 120 


图 3-22 inject 方法 的 示例 


inject 首先 把 第 1 个 和 第 2 个 元 素 传 递 给 块 。 


然后 把 结果 和 第 3 个 元 素 传递 给 块 。 


这 样 到 最 后 ， 循 环 结果 束 变 成 了 1*2*3*4*5。 用 ijnject 好 像 是 往 
各 元 素 之 间 注 入 了 运算 符 ， 这 就 是 inject (注入 ) 名 字 的 由 来 吧 。 


zip 征 从 多 个 集合 中 并 行 取得 元 素 的 方法 。 具 体 请 看 下 面 的 例子 。 


[1, 2, 3] 


ls: 
本 


[[1,2],[2,4],[3,6]] 


没有 块 的 zip 调用 ， 可 以 把 复数 个 集合 的 第 n 个 元 到 结合 成 一 个 数组 
返回 。 男 外 ， 如 末 有 块 的 调用 ， 那 么 参数 的 第 n 个 元 素 都 一 起 传 递 给 
块 来 处 理 (参见 图 3-23) 。 这 和 图 3-24 中 的 处 理 基本 上 是 相同 的 ， 因 
为 没有 生成 多 余 的 数组 ， 效 率 就 稍微 高 一 点 。 


= [1,2,3] 

= [2,4,6] 

.Zip(b) {|x,y| printf "[%s,%s]\n",x,y} 
输出 

[1,2] 

[2,4] 

[3, 6] 


图 3-23 zip 方法 的 示例 ， 调 用 了 块 


a.zip(b).each{|x,ylprintf 
"[%s,%s]\n",x,y} 


图 3-24 ”zip 方法 的 示例 ， 因 为 调用 了 each ， 所 以 和 图 3-22 中 程序 相 比 效率 稍 低 
grep 方法 可 以 对 集合 中 的 元 素 进 行 模式 匹配 。 匹 配 用 === 运 算 符 。 和 


zip 一 样 ， 如 果 指 定 了 块 ， 就 不 用 生成 数组 ， 而 是 把 各 个 匹配 的 元 素 
传递 给 块 来 处 理 (参见 图 3-25) 。 


a.grep(/^b/) {|x|printf "%s\n",x} 


图 3-25 grep 方法 的 示例 


3.3.7 ”用 来 指定 条 件 的 select 方法 


对 集合 的 各 个 元 聚 进行 块 处 理 的 是 循环 类 型 的 方法 。 和 它 相对 的 ， 对 
各 个 元 素 进行 块 处 理 ， 用 块 处 理 的 结果 作为 下 个 处 理 的 判定 条 件 的 是 
条 件 指定 型 方法 。 


条 件 指 定型 方法 中 最 常用 的 是 select 方法 。select 方法 把 块 处 理 


结果 为 真 的 元 素 存 放 在 数组 中 返回 。 这 个 方法 的 别名 是 find_all 。 


二 [1,2,3,4] 
.Select{|x| x%2 == 0} 
结果 (偶数 ) 

2,4] 


和 select 动作 相反 的 方法 是 reject 。reject 方法 返回 块 处 理 结 
果 为 假 的 元 素 的 数组 。 


74] 
x| x%2 == 0} 


如 果 想 找 出 第 一 个 满足 条 件 的 元 素 ， 就 可 以 用 detect 方法 。 它 的 别 
名 是 find 。 


[1, 2, 3,4] 
detect{|x| x%2 == 0} 


结果 (最 初 的 偶数 ) 
2 


真 假 结 果 都 需要 的 情况 也 不 能 说 没有 。 这 样 一 个 八 面 玲珑 的 方法 是 
pa 
回 


rtition 。partition 方法 把 真 的 和 假 的 元 素 的 数组 作为 块 返 


全 部 元 素 是 否 为 真 ， 或 者 至 少 有 一 个 元 素 为 真 的 判断 方法 是 al1? 和 
any? (参见 图 3-26) 。 


= [true,true] 
= [false,truel] 
.al1? 

.al1l? 

.anNny? 

,any2? 


图 3-26 al1? 和 any? 方法 的 使 用 示例 


al1? 和 any? 可 以 用 块 处 理 的 结果 作为 判定 条 件 。 (参见 图 3-27) 


c = [1,2,3] 
c.all?{|x|x%2==0} # => false 


c.any?{|x|x%2==0} # => true 


图 3-27 al1? 和 any? 方法 的 使 用 示例 ， 调 用 了 块 

3.3.8 ”排序 与 比较 大 小 的 方法 

有 一 些 方法 是 用 来 比较 块 执行 结果 的 大 小 。 

min 和 max 分 别 返回 集合 中 的 最 小 和 最 大 的 元 素 ， 如 果 调 用 了 块 ， 那 


么 会 把 两 个 元 聚 传递 给 块 来 比较 大 小 。 比 较 用 <=> 运算 符 ，a >b 的 时 
候 返 回 正 整 数 ，a =b 时 返回 零 ，a<b 时 返回 负 整数 。 


ary 二 [7 LL 2 "6"] 
ary .max 


之 锭 中 
上 


-=> "6" (字符 


ary.max{|a,b| a.to_i <=> b.to_ i} 
=> "11" (数值 ) 


sort 方法 把 集合 的 元 素 按照 从 小 到 大 的 顺序 排列 。 和 min 一样 可 以 
用 块 来 比较 大 小 (参见 图 3-28) 。 


ary 二 Ed 1 1 von 262 
了 也 了 
ary.sort{l|a,b| a.to i <=> b.to_ i} 


# 结果 
# [Ly 2 "6", “二 于 2 


图 3-28 sort 方法 的 示例 


sort 的 每 次 比较 都 要 执行 块 处 理 ， 那 么 每 次 比较 都 要 做 整数 化 变 
换 ， 这 是 有 些 浪费 资源 的 。 排 序 时 要 比较 的 次 数 很 多 ， 而 比较 次 数 也 
会 随 着 元 素 个 数 的 增加 而 增加 。 所 以 ， 如 果 移 一 次 性 把 集合 中 全 部 元 
素 都 变换 好 的 话 ， 束 会 降低 比较 的 开销 ， 这 种 变换 称 为 施 拟 次 变换 
(Schwarzian Transform) 。 它 是 以 Perl 界 著 名 人 士 Randal Schwarz 的 
和 名字 而 命名 的 。 


具体 请 看 下 面 的 例子 (参见 图 3-29) 。 


ary.map{|i|[i.to i,i]}.sort.map{|j|j[-1]} 


图 3-29 ”使 用 施 瓦 沈 变换 进行 排序 的 示例 


下 面 按照 顺序 来 说 明 一 下 。 从 ary 开始 的 前 半 部 分 


ary.map{|i|[i.to i,i]} 


济 


征 从 元 素 计 算 用 作 比 较 对 象 的 整数 值 (i .to_i ) ， 然 后 把 它 和 元 素 
一 起 放 入 数组 。 对 数组 排序 ， 


.Sort 


最 后 从 中 取出 原来 数组 的 元 素 ， 束 得 到 了 排序 结 


:map{|j|j[-1]} 


计算 比较 值 的 次 数 与 元 素 个 数 古 一 样 的 ， 所 以 元 素 在 很 多 时 候 排 序 的 
时 间 差 别 束 会 很 大 。 因 为 这 种 写法 是 很 难 记 住 的 ， 所 以 Ruby 提供 了 
施 瓦 深 变 换 的 简单 方法 sort_by 。 


ary 二 De N11"; 2 "6"] 
ary.sort_by{|x| x.to_i} 


# 结果 


# [ls 2 "6", "11"] 


和 前 面 的 施 瓦 深 变换 相 比 ， 写 法 变 得 简单 多 了 。 和 通常 用 块 进行 比较 
的 sort 方法 相 比 也 显得 简洁 。 所 以 sort_by 是 既 人 简单 好 用 又 效率 
高 的 方法 。 


Ruby 1.9 的 开发 版 也 提供 了 min_by 和 max_by 方法 ， 它 们 与 min 和 
max 方法 形式 一 样 ， 可 以 用 块 来 指定 比较 方法 。 


还 有 几 个 方法 ， 不 属于 以 上 的 循环 、 条 件 指定 、 排 序 及 比较 大 小 。 比 
如 有 元 素 判 定 方法 member? (别名 是 ijinclude? ) ， 返 回 所 有 元 素 
的 方法 entries (别名 是 to_a) 。 


3.3.9 ”在 类 中 包含 (include) Enumerable 模块 


如 果 有 each 方法 ， 就 可 以 通过 包含 Enumerable 模块 ， 来 试 一 下 
Enumerable 的 各 种 方法 。 请 看 图 3-30 中 的 程序 。 最 初 先 在 类 Dice 


(骨子里 指定 了 毛 骨 子 的 次 数 ， 然 后 包含 Enumerable 模块 ， 最 后 
把 3 以 下 的 结 采 排除 掉 。 


# (1-1) Dice 类 
class Dice 
def initialize(n) 
Q@n = n 
end 
def each 
Q@n.times { 
yield rand(6)+1 


1-2) Dice 对 象 的 生成 
生成 要 投掷 19 次 骨 子 
dice = Dice.new(10) 
# 用 each 方法 来 掷 山 子 


dice.each {|x| puts x} 


# (1-3) 往 Dice 类 中 包含 Enumerable 
# 增加 功能 
class Dice 

include Enumerable 


i Pe ek 3 以 下 的 结 采 


图 3-30” 掷 蜗 子 的 Dice 类 。 定 义 类 之 后 ， 通 过 包含 Enumerable 模块 来 增加 方法 


(1-1) 中 定义 了 Dice (山子 ) 类 。 初 始 化 方法 Initialize (相当 于 
Java、C++ 的 构造 函数 ) 中 ， 给 实例 变量 @n 设置 了 投掷 次 数 ?。Ruby 中 
以 @ 开始 的 变量 是 实例 变量 。 


5 实例 变量 是 指 各 个 对 象 中 拥有 各 自 独 立 值 的 变量 


each 方法 中 ， 用 times 方法 做 @n 次 循环 。 实 际 投掷 人 般 子 的 结果 是 
用 随机 数 函 数 rand 来 生成 的 。rand 方法 返回 从 0 到 指定 参数 之 间 
的 随机 数 。 在 图 3-30 的 程序 中 ，rand(6)+1 来 生成 融 子 上 从 1 到 6 
的 数 。 


生成 的 随机 数 用 yield 传递 给 块 。 调 用 yield 可 以 使 方法 的 执行 暂 
时 停止 ， 转 而 来 执行 块 的 处 理 。 块 处 理 执行 完了 之 后 ， 程 序 再 次 从 
yield 的 下 一 行 开始 继续 执行 。 


这 里 定义 的 Dice 类 ,除了 构造 画 数 之 外 只 有 each 这 个 方法 。 在 
(1-2) 中 ， 生 成 了 Dice 类 对 象 ， 调 用 each 方法 来 做 投 毛 骨 子 的 处 
理 。 但 是 如 果 只 是 表示 10 个 数字 的 话 ， 程 序 束 没有 趣味 性 了 。 


所 以 在 (1-3) 中 ,在 Dice 类 中 通过 包含 Enumerable 模块 来 增加 
了 功能 。Ruby 中 ， 可 以 用 class 语句 给 已 经 存在 的 类 增加 功能 。 这 
个 例子 中 ， 本 来 一 开始 就 可 以 在 Dice 类 中 包含 Enumerable 模块 
的 ， 但 为 了 介绍 这 个 功能 ， 我 们 就 特意 分 开 写 了 。 

最 后 的 (1-4) 中 ， 利 用 Enumerable 的 reject 方法 ， 把 3 以 下 的 
结果 排除 掉 了 。 请 注意 已 经 生成 的 对 象 也 可 以 用 这 个 方法 。 

通过 介绍 Dice 类 的 这 个 例子 ， 我 们 是 否 掌握 了 块 的 调用 方法 和 包含 
Enumerable 模块 的 好 处 了 呢 ? 


3.3.10 “列表 内 包 表 达 式 和 块 的 区 别 


如 上 所 述 ， 我 们 用 Ruby 的 块 来 对 集合 进行 处 理 。 但 是 在 Python 和 
Haskell 编程 语言 中 ， 用 列表 内 包 表 达 式 (List Comprehension) 功能 来 
Te 。 这 是 处 理 数 组 的 另 一 种 方法 。 有 具体 的 定义 方 
法 如 下 。 


[f(x) for x in coll] 


这 个 表达 式 的 意思 是 ， 把 col 集合 的 各 个 元 素 赋 值 给 x ， 然 后 用 
f(x) 来 处 理 ， 最 后 返回 结果 的 数组 。 如 果 用 Ruby 的 Enumerable 
来 实现 的 话 ， 和 我 们 前 面 学 过 的 一 样 ， 程 序 如 下 所 示 。 


col.collect{|x|f(x)} 


列表 内 包 表 达 式 也 可 以 像 下 面 这 样 来 处 理 满足 特定 条 件 的 元 素 。 


[f(x) for x in col if g(x)] 


增加 了 if g(x) 条 件 ， 返 回 的 数组 中 就 只 包含 满足 g(x) 条 件 的 元 
素 。 用 Ruby 的 话 是 像 图 3-31a 那样 。 图 3-31b 则 是 Ruby 1.9 的 省 略 写 
法 。 


#(a) 
col.select{|x|g(x)}.collect{|x|f(x)} 
#(b 


col,.select(&:g).collect(&:f) 


图 3-31 相当 于 列表 内 包 表 达 式 Ruby 写法 


列表 内 包 表 达 式 写法 是 和 自然 语言 (英语 ) 很 接近 的 ， 而 且 程 序 比 用 
Ruby 的 Enumerable 方法 还 更 为 紧 并 ， 所 以 在 Python 编程 语言 的 用 
户 中 非常 受 欢迎 。Python 中 也 有 和 collect 一 样 功 能 的 map 函数 ， 
但 是 因为 有 列表 内 包 表 达 式 功能 ， 甚 至 有 人 建议 要 废除 这 样 的 函数 。 


但 是 有 人 不 喜欢 列表 内 包 表 达 式 写法 中 的 顺序 。 例 如 刚才 的 程序 : 


[f(x) for x in col if g(x)] 


首先 ， 把 col 的 各 个 元 素 赋 值 给 x ， 然 后 执行 g(x) ，g (x) 的 结 

为 真 的 元 素 再 执行 f(x) ， 最 后 把 对 g(x) 为 真 的 元 素 执 行 f(x ) 的 

结果 作成 列表 ， 这 个 列表 成 为 列表 内 包 表 达 式 的 返回 值 。 英 文 不 好 的 

tp 。 也 许 习 惯 了 就 好 了 ， 但 总 还 是 不 
观 吧 。 


列表 内 包 表 达 式 是 很 深奥 的 ， 但 是 因为 下 面 这 些 原 因 ，Ruby 在 将 来 也 
不 会 采用 这 个 功能 。 


。 日 本 人 《特别 是 我 ) 读 起 来 不 太 顺 ， 魅 力 不 够 。 


。 与 Ruby 的 其 他 部 分 (基本 是 从 左 到 右 ) 不 一 


。 只 能 实现 collect 和 select 功能 的 组 合 ， 和 列表 内 包 表 达 式 功能 相 
比 ， 块 的 应 用 领域 更 广 《虽然 程序 有 点 见长 ) 。 


因为 这 种 功能 是 很 有 趣 的 ， 所 以 简单 地 介绍 了 一 下 。 
从 语法 的 外 观 到 广泛 的 应 用 


在 本 文中 提 到 了 Ruby 的 块 是 继承 了 MIT 开发 的 CLU 编程 语言 的 大 
代 器 功能 。CLU 的 适 代 器 是 使 用 for 循环 的 内 部 迭代 器 。 


Ruby 设计 之 初 ， 对 于 块 的 实现 考虑 了 好 几 种 方法 。 比 如 用 下 面 的 
using 关键 字 来 指定 参数 。 
method using x 


end 


或 者 用 do 关键 字 明 确 地 调用 块 。 


do method using x 


end 


最 终 还 是 觉得 现在 的 用 法 比较 好 。 如 采用 for 或 者 do 这 样 的 语 
人 句 ， 那 么 束 会 妨碍 循环 抽象 化 以 外 的 应 用 了 。 


设计 时 做 出 的 “不 用 for 语句 ”这 个 小 小 的 决定 ， 结 果 使 得 块 得 到 了 
0 。 想 想 这 小 小 的 “外 观 上 的 不 同市 来 的 结果 ， 真 是 不 能 
/小 看 品 。 


语法 相当 于 一 般 软 件 的 用 户 交 互 界 面 ， 软 件 开 发 人 员 往 往 偏重 于 “ 它 
能 做 什么 ”这 样 功能 性 的 一 面 ， 但 从 Ruby 块 的 发 展 经 历 看 来 ,“ 怎 
样 实现 "这样 的 用 户 界 面 实际 上 是 非常 重要 的 。 


第 4 章 设计 模式 
4.1 设计 模式 (1) 


设计 模式 是 个 编程 术语 ， 它 是 指 设 计 上 经 党 反复 使 用 的 模式 。 这 个 词 
本 来 用 于 建筑 界 ， 表 示 各 种 各 样 的 建筑 物 、 街 道 的 设计 上 共通 的 创意 
及 构成 的 组 合 。 即 使 在 建筑 界 ， 这 个 词 也 是 近 些 年 来 才 开 始 使 用 的 。 
设计 模式 这 一 思想 好 像 起 源 于 Christopher Alexander 的 The Timeless 
Way of Building 1 (牛津 大 学 出 版 社 ，1979) 一 书 。 


其 中 文 版 为 《建筑 的 永恒 之 道 》， 由 知识 产权 出 版 社 出 版 。 一 一 编者 注 


一 


通常 ， 建 筑 物 的 设计 各 不 相同 ， 另 外 加 上 有 用途、 建筑 条 件 等 各 种 制约 
因素 ， 一 个 设计 是 不 能 一 成 不 变 地 套用 到 别 的 建筑 物 上 的 。 建 筑 设 计 
师 只 是 通过 重用 积 素 的 设计 模式 ， 试 独 缩 短 设计 所 花费 的 时 间 。 

话说 回 到 软件 上 来 ， 重 用 的 手法 在 软件 行业 比 在 建筑 办 中 得 到 了 更 广 


泛 的 使 用 。 一 般 是 通过 库 的 形式 ， 各 种 软件 共 至 处 理 过 程 、 数 据 结 构 
以 及 类 等 。 实 际 上 ，Linux 等 操作 系统 提供 了 数 不 清 的 各 种 库 。 
但 是 ， 只 有 库 还 不 能 达到 充分 地 共享 。 软 件 设 计 中 有 些 东 西 虽 然 不 能 
以 库 的 形式 来 把 它 独立 出 来 ， 但 是 多 个 软件 共通 利用 的 东西 是 确实 存 
在 的 。 这 样 的 东西 只 能 称 之 为 固定 形式 一 一 模式 。 


比如 ， 让 我 们 来 看 一 个 最 简单 的 模式 吧 。 


for (int i=0; i<len; i++) { 


} 


这 古称 之 为 for 循环 的 固定 形式 。 在 索引 变量 i 从 0 到 len 变化 的 
过 程 中 进行 相应 的 处 理 。 有 C、C++ 或 Java 等 编程 经 验 的 人 人， 同样 的 
代码 灵 怕 见 过 成 百 上 干 裔 了 。 但 是 ， 这 个 简单 的 处 理 并 不 能 以 库 的 形 
式 来 共享 。 这 不 是 库 ， 而 应 该 称 之 为 模式 。 


在 软件 设计 中 像 这 样 的 模式 数不胜数 。 不 过 ， 设 计 人 员 目 己 很 少 能 够 
意识 到 模式 的 存在 ， 一 般 是 在 积累 了 很 多 经 验 之 后 ， 才 几乎 在 无 意识 
之 中 利用 模式 提高 了 软件 开发 的 效率 。 


Erich Gamma 与 几 位 合作 者 “ 一 起 ， 精 选 了 软件 设计 中 ， 特 别 是 面 癌 对 
象 软 件 设计 中 反复 出 现 的 各 种 模式 ， 比 照 着 Alexander 提倡 的 建筑 上 

的 概念 ， 称 之 为 “设计 模式 ”。 他 们 从 目 己 及 周围 的 开发 经 验 中 把 模式 

总 结 出 来 并 进行 分 类 ， 出 版 了 《设计 模式 》 一 书 。《 设 计 模 式 》 中 介 
绍 了 表 4-1 中 列 出 的 23 种 模式 。 


2 《设计 模式 》 的 作者 中 以 Erich Gamma 最 为 著名 ， 其 他 3 人 Richard Helm 、Ralph Johnson 
和 John Vlissides 也 是 功 不 可 没 。 他 们 4 人 被 称 为 “四人帮 ”。 


表 4-1 《设计 模式 》 中 介绍 的 23 种 设计 模式 


3 可 配置 的 方法 生成 有 关 的 对 象 群 
Adapter ( 适 本 吕 ) 
Bridge (桥接 ) 分 离 类 之 间 的 实现 


Builder (生成 器 ) } 离 复杂 对 象 的 生成 过 程 
多 个 对 象 来 处 理 请 


树 结构 来 构成 对 象 
对 象 动态 增加 新 的 5 
要 


多 ] 
Facade (外 观 隐藏 子 系统 的 详细 内 容 ， 提 供 统一 的 接口 


actory Method (工厂 方法 ) | 于 半 全 生成 对 委 的 接站 具体 的 生成 过 程 由 派生 类 


全 ) 
) 
(工厂 方法 ) 
以 共享 的 方式 提高 大 量 小 对 象 的 实现 效率 
器 ) 
) 


册 
Iterator (迭代 器 
Mediator (中 介 者 ) 封装 对 象 之 间 的 相互 作用 
记录 对象 有 内 闭关 
Observer (观察 考 ) 把 对 象 的 状态 变更 
Prototype (原型 ) 成 对 象 的 原型 
Proxy (代理 ) 控制 对 象 访问 的 代理 


Singleton ( 单 件 来 保证 某 个 类 的 实例 只 有 一 个 
State (状态 ) 出 来 ， 封 装 状态 变 
Strategy 《策略 ) 闭 算 法 ， 使 之 具有 可 变换 性 


Re 
pe 


Template Method (模板 方法 ) ”| 父 类 定义 框架 ,派生 类 具体 实现 其 


Visitor (访问 者 ) 对 集合 的 元 素 进行 操 


4.1.1 设计 模式 的 价值 和 意义 


Gamma 他 们 并 没有 发 现 新 的 模式 。 总 结 出 来 的 23 种 设计 模式 也 都 是 
软件 开发 中 早 束 存 在 并 反复 使 用 的 模式 ， 因 此 并 不 能 说 是 Gamma 他 
们 的 首创 。 但 即使 是 这 样 ， 设 计 模 式 也 还 是 得 到 了 大 家 的 关注 。 这 到 
底 是 为 什么 呢 ? 


首先 ， 它 明确 了 各 种 模式 的 效果 和 适用 状况 ， 给 众多 模式 命名 并 进行 
分 类 ， 这 本 身 束 是 非常 有 意义 的 。 如 果 没 有 名 字 的 话 ， 即 使 使 用 了 模 
式 ， 程 序 员 也 大 都 没有 明确 意识 到 使 用 了 模式 。 因 为 意识 不 到 应 该 使 
用 的 模式 ， 殊 会 错过 最 合适 的 设计 。 


但 是 ， 他 们 最 大 的 功绩 并 不 在 于 把 设计 模式 进行 分 类 ， 而 是 明确 了 “ 软 
件 中 可 以 分 类 的 设计 模式 ”的 存在 。 有 了 这 样 的 认识 之 后 ， 设 计 模式 整 
不 仅 限于 书 中 介绍 的 23 个 ， 人 们 开始 发 现 和 定义 更 多 设计 模式 。 


设计 模式 有 了 和 名字， 人 们 就 可 以 认识 到 它 的 存在 。 对 于 没有 名 字 的 东 
西 ， 人 人 们 几乎 不 可 能 认识 到 它 的 存在 ， 并 对 之 进行 讨论 。 这 种 不 能 用 
语言 表达 的 知识 我 们 称 之 为 内 隐 知 识 。 给 这 些 在 软件 中 经 常 反复 出 现 
的 模式 命名 ， 使 得 这 些 本 来 只 有 经 验 丰 富 的 程序 员 才 能 认识 到 的 软件 
设计 模式 能 被 广泛 认识 和 讨论 。 这 样 的 知识 称 为 形式 知识 。 把 迄今 为 
人 


4.1.2 设计 模式 是 程序 抽象 化 的 延伸 


从 软件 设计 进化 的 观点 来 看 设计 模式 的 话 ， 可 以 把 设计 模式 看 成 是 软 
件 抽 象 化 的 新 工具 。 


到 目前 为 止 ， 把 共通 处 理 进 行 抽象 化 ， 结 有 末 产 生 了 例 程 ， 把 数据 构造 
也 包括 在 一 起 进行 抽象 化 ， 结 果 产 生 了 抽象 数据 类 型 ， 把 抽象 数据 类 
型 的 共通 部 分 再 进行 抽象 ， 因 而 产生 了 继承 这 一 工具 。 束 像 这 样 ， 软 
件 设 计 总 是 在 不 断 地 导入 新 工具 ， 以 实现 更 高 度 的 抽象 化 。 


继承 是 把 单一 类 的 共通 部 分 抽象 化 ， 以 达到 再 利用 的 目的 ， 但 是 ， 面 
回 对 象 的 系统 很 少 是 由 单一 的 类 来 实现 的 ， 几 乎 都 是 由 很 多 类 组 合 构 
成 的 。 在 这 种 类 的 组 合 中 ， 整 会 有 一 些 大 同 小 异 的 模式 出 现在 各 种 不 
同 的 系统 中 。 这 些 模 式 是 无 法 用 类 库 来 抽象 的 ， 为 达到 再 利用 的 目 
的 ， 设 计 模 式 这 种 形式 是 最 有 效果 的 。 


有 了 设计 模式 这 种 方法 ， 这 些 用 类 库 所 实现 不 了 的 类 构成 的 模式 殉 可 
以 在 各 种 各 样 的 状况 下 得 到 应 用 。 模 式 的 分 类 是 个 很 抽象 的 概念 ， 的 
确 羡 比 单 纯 的 例 程 或 类 库 妥 难得 多 ， 但 设计 模式 有 可 能 市 来 极 高 的 生 
产 效 率 ， 这 征 其 他 方法 所 不 能 达到 的 。 


类 设计 本 质 上 是 非常 困难 的 ， 构 思 出 来 最 优 的 一 组 类 来 达到 目的 ， 这 
件 事 并 不 是 随便 谁 都 能 做 到 的 。 但 是 ， 一 旦 有 了 设计 模式 ， 只 要 把 过 
去 优秀 的 人 们 考虑 出 来 的 模式 拿 来 应 用 一 下 ， 谁 都 可 以 做 出 优秀 的 设 


十 


4.1.3 Ruby 中 的 设计 模式 


《设计 模式 》 一 书 是 用 C++ 和 Smalltalk 介绍 模式 实例 的 。 看 了 那些 例 
子 ， 大 家 都 会 感觉 到 ， 绝 大 多 数 的 模式 用 Smalltalk 实现 起 来 非常 倘 
单 。 这 是 为 什么 呢 ? 


因为 Smalltalk 没有 静态 类 型 ， 所 以 也 就 不 需要 匹配 类 型 的 模板 等 机 
制 ， 也 不 需要 仅仅 为 满足 类 型 要 求 而 进行 继承 ， 这 就 是 Smalltalk 用 起 
来 很 简单 的 原因 。 而 且 ， 由 于 语言 本 身 的 动态 性 质 ， 有 些 模式 根本 不 
必要 以 模式 的 形式 来 抽象 出 来 就 可 以 得 到 简洁 的 实现 ， 这 也 是 
Smalltalk 显得 简单 的 原因 之 一 。 


Ruby 在 很 多 方面 很 像 Smalltalk， 实 现 设 计 模 式 也 坚 无 困难 。 一 般 说 
来 ， 用 Ruby 来 实现 设计 模式 的 场合 ， 要 比 C++ 简 活 得 多 ， 有 些 模 式 
用 现成 的 库 就 足以 表现 。 


下 夯 以 Ruby 为 中 心 让 我 们 来 看 几 个 在 实际 设计 中 应 用 设计 模式 的 
列子 。 


4.1.4 ”Singleton 模 式 


首先 ， 让 我 们 来 看 一 下 最 简单 的 一 个 设计 模式 ，Singleton 〈 单 件 ) 模 

式 。Singleton 模式 用 来 保证 某 个 类 的 实例 只 有 一 个 。 

为 什么 需要 Singleton 模式 呢 ? 比如 作为 其 他 对 象 的 雏形 而 存在 的 对 象 
(用 于 Prototype 模式 ) ， 以 及 系统 全 体 只 存在 唯一 一 个 的 对 象 等 ， 都 

要 用 到 Singleton 模式 。 


| Ruby 实现 Singleton 模式 的 方法 有 几 个 ， 主 我 们 按 顺 序 来 逐一 说 
明 。 


使 用 singleton 库 的 方法 


Ruby 已 经 以 库 的 形式 实现 了 Singleton 模式 。 如 图 4-1 所 示 ， 使 用 
singleton 库 的 话 ， 在 任意 的 类 里 只 要 包含 (include) 上 Singleton 模 
块 ， 那 个 类 束 变 成 了 Singleton 模式 的 对 象 。 


require 'singleton' 
class PrintSpooler 
include Singleton 


end 


PrintSpooler.instance.spool(document) 


图 4-1 使 用 singleton 库 的 Ruby 代码 

要 想 取 得 Singleton 模式 的 类 的 对 象 ， 像 图 4-1 最 后 一 行 那 样 ， 使 用 该 
类 的 instance 方法 。 如 果 该 类 对 象 还 没有 生成 ，instance 方法 会 
生成 该 类 对 象 并 返回 。 如 果 该 类 对 象 已 经 生成 ，instance 方法 就 返 
回 既 有 对 象 。 


使 用 类 或 模块 


C++ 和 Java 是 不 能 把 类 作为 对 象 来 使 用 的 ， 与 之 不 同 的 是 ，Smalltalk 
或 Ruby 能 把 类 也 作为 对 象 来 处 理 。 因 此 ， 在 类 或 模块 里 定义 一 个 方 
法 就 可 以 实现 Singleton 模式 (参见 图 4-2) 。 


class PrintSpooler 
def PrintSpooler::spool(doc) 


end 


end 


PrintSpooler.spool(document) 


图 4-2 利用 类 定义 来 实现 Singleton 模式 的 代码 
把 一 般 的 对 象 作 为 Singleton 来 使 用 
为 了 把 一 个 类 的 对 象限 制 成 只 有 一 个 ， 并 不 一 定 需 要 对 对 象 的 一 般 生 


成 方法 加 以 限制 。 我 们 可 以 生成 一 个 一 般 的 对 象 ， 然 后 遵守 绅士 协 
定 ， 不 要 再 生成 其 他 更 多 个 对 象 ， 也 就 行 了 (参见 图 4-3) 。 


class PrintSpooler 
def spool(doc) 


and 
end 


# 把 唯一 的 对 象 赋值 给 一 个 固定 变量 
Spooler = PrintSpooler .new 
Spooler .spool(document) 


图 4-3 ”在 编程 上 下 点 工夫 来 实现 Singleton 模式 
使 用 对 象 和 特异 方法 
其 实 还 有 不 用 类 就 可 以 实现 的 方法 。Ruby 可 以 在 对 象 生成 之 后 再 增加 


新 的 方法 ， 这 样 我 们 就 可 以 生成 一 个 0bject 类 的 对 象 ， 然 后 给 它 追 
加 必要 的 功能 (参见 图 4-4) 。 


Spooler = Object.new 
def Spooler.spooll(doc) 


end 
Spooler .spool(document) 


图 4-4 ”利用 特殊 方法 来 实现 Singleton 模式 的 代码 


这 种 使 用 特异 方法 的 办 法 是 很 符合 Ruby 特征 的 。Ruby 目 身 的 mai (n 
最 高 层 的 self) 及 ARGF (虚拟 文件 ， 用 来 代表 参数 所 指定 的 文件 ) 
等 也 都 是 用 这 种 方法 实现 的 。 


4.1.5 Proxy 模式 


Proxy (代理 ) 模式 是 为 某 个 对 象 提供 代理 对 象 的 模式 。 为 什么 需要 
Proxy 模式 呢 ? 


假设 有 个 生成 代价 非常 大 的 对 象 。 如 果 在 还 不 知道 十 否 真正 需要 该 对 
象 的 时 候 就 事先 生成 它 的 话 ， 可 能 会 市 来 很 大 的 浪费 。 但 话 虽 这 人 么 
不 生成 对 象 的 话 什 么 事 也 做 不 了 。 这 时 候 代 理 对 象 束 有 用 武之 地 


比如 字 处 理 软件 ， 它 利用 Proxy 对 象 来 处 理 嵌 入 图 像 ， 把 嵌入 图 像 的 
生成 处 理 延 迟到 需要 表示 的 瞬间 才 来 进行 。 


Ruby 的 库 中 也 有 使 用 Proxy 模式 的 。 比 如 tempfile 库 ， 它 不 用 指定 文 
件 名 就 可 以 生成 临时 的 工作 文件 (参见 图 4-5) 。 


生成 Tempfile 


Tempfile.new("foo") 
往 Tempfile 输出 
f.print("foo\n") 


七 米 亿 十 下 
口 


p f.gets # => "foo\n" 


图 4-5 采用 Proxy 模式 的 tempfile 库 的 使 用 示例 


Tempfile 类 与 实际 负责 文件 输出 的 I0 类 没有 继承 关系 ， 它 的 有 关 
输入 、 输 出 处 理 的 方法 都 通过 Proxy 委派 到 实际 的 I0 类 对 象 。 

此 ， 通 过 使 用 Tempfile 类 的 对 象 ， 在 任何 有 必要 的 时 候 也 都 可 以 使 
用 相关 的 I0 对 象 。 


Proxy 模式 也 可 以 用 Ruby 的 库 来 实现 。 使 用 delegate 库 就 可 以 了 。 
delegate 是 委托 的 意思 。Tempfile 类 也 是 用 delegate 库 来 实现 的 
(参见 图 4-6) 。 


require 'delegate' 


# 生成 obj 的 代理 对 象 
proxy = SimpleDelegator.new(obj) 


# 通过 proxy 来 调用 obj 的 some_method 
Proxy.some_method 


图 4-6 ”使 用 delegate 库 来 实现 Proxy 模式 的 例子 


看 一 下 就 知道 ，delegate 库 的 源 代码 是 相当 复杂 的 ， 但 基本 上 只 是 把 
被 调用 的 方法 都 委派 到 本 来 的 对 象 那 里 去 。 这 里 使 用 的 是 Ruby 的 
method_missing 方法 。 


Ruby 中 对 对 象 A 调用 它 所 不 知道 的 方法 的 时 候 ，A 的 
method_missing 方法 歼 会 被 调用 。 传 递 给 method_missing 的 
参数 是 在 原来 调用 方法 的 参数 之 前 加 上 不 存在 的 方法 名 。 利 用 这 一 框 
架 就 可 以 很 简单 地 实现 Proxy 模式 (参见 图 4-7) 。 


class Proxy 
def initialize(orig) 
Q@obj = orig 
end 
def method_missing(name, *args) 


Q@obj.send(name, *args) 
end 
end 


proxy = Proxy.new(obj) 


# proxy .some_method 通过 proxy 来 调用 obj 的 some_method 


[ES 


图 4-7 使 用 method_missing 方法 来 实现 Proxy 模式 的 例子 


怎么 样 ， 真 的 是 非常 简单 吧 。 但 是 ， 这 种 实现 方式 也 有 不 灵光 的 时 
候 。Proxy 类 固有 的 方法 被 调用 的 时 候 ， 是 不 会 委派 到 
method_missing 方法 的 。 也 束 是 说 ， Proxy 类 的 父 类 Object 类 的 
方法 是 委派 不 了 的 。 


如 果 这 样 的 情况 也 要 对 应 的 话 ， 就 会 稍微 麻烦 一 些 。 实 际 上，delegate 
库 除 去 空 行 和 注释 以 外 还 长 达 114 行 。 比 图 4-7 要 复杂 得 多 。 


delegate 库 使 用 起 来 虽然 很 简单 ， 但 方法 委派 的 对 象 仅 限 于 有 既 有 的 对 
象 。 因 此 ， 在 最 开始 举 的 字 处 理 软件 例子 中 ， 要 想 达 到 延迟 图 像 生 成 
的 目的 ， 直 接 使 用 delegate 是 不 行 的 。 我 们 可 以 像 图 4-8 那样 ， 从 
Delegator 派生 一 个 子 类 (ImageProxy ) 来 达到 这 一 目的 。 


require 'delegate' 
class ImageProxy < Delagator 


# 传递 迟延 生成 所 需要 的 数据 
def initialize(data) 
@data = data 
@image = nil 
end 
# 下 面 的 方法 用 来 在 访问 时 调查 委派 对 象 
def _ getobj _ 
If Q@image == nil 
@image = LoadImage(@data) 
end 
@image 
end 


图 4-8 ”Proxy 模式 延迟 对 象 生成 的 例子 


getobj_ 方法 是 Delegator 对 象 取得 方法 委派 对 象 的 方法 。 通 
过 重 写 这 个 方法 ，ImageProxy 会 在 实际 访问 图 像 对 象 的 时 候 才 来 生 
成 图 像 对 象 。C++ 会 用 operator-> 或 者 operator* 来 代替 

_ getob]j 。* 


4.1.6 ”Iterator 模 式 


Iterator ( 送 代 器 ) 模式 提供 按 顺序 访问 集合 对 象 中 各 元 素 的 方法 。 即 
使 不 知道 对 象 的 内 部 构造 ， 也 可 以 按 顺 序 访问 其 中 的 每 个 元 素 。 


Iterator 模式 是 为 集合 对 象 男 外 准备 用 来 控制 循环 处 理 的 对 象 ， 束 像 
C++ 或 Java 一 样 。 我 们 称 这 个 循环 控制 对 象 为 Iterator， 也 称 为 游标 。 


4-9 是 Iterator 模式 的 类 构成 图 。 调 用 集合 对 象 (图 4-9 的 
Iteratable ) 的 CreateIterator() 方法 ， 就 会 返回 自己 对 应 的 
Iterator 对 象 。Iterator 对 象 会 记 住 现 在 所 指向 的 Iteratable 
元 素 ， 调 用 Next( ) 方法 可 以 返回 集合 的 下 一 个 元 素 。 要 想 知道 集合 
中 是 否 还 有 别 的 元 素 ， 可 以 调用 IsDone( ) 方法 来 确认 。 图 4-10 是 
利用 Iterator 模式 的 程序 示例 。Iterator 模式 实现 的 是 所 谓 外 部 迭代 器 
的 循环 控制 抽象 化 。 


| Iteratable 
CreateIterator () First() 
Next () 
4 IsDone() 
区 NN CurrentItem() 


IteratableArray 


IteratableArray () 


Size() 


Get () 


图 4-9 _ Java 版 Iterator 模式 的 类 构成 


网 


IteratableArray array = CreateArray(); 
Iterator it = array.CreateIterator(); 
for (it.First(); !it.IsDone(); it.Next())t{ 


System.out.println((String)it.CurrentIitem()); 
} 


图 4-10 ”Java 版 外 部 送 代 器 的 用 法 


一 < 


而 Ruby 古 用 块 来 对 集合 的 各 元 素 进 行人 循环 处 理 的 。 作 为 设计 模式 ， 
使 用 块 进行 循环 的 抽象 化 属于 Visitor (访问 者 ) 模式 。 但 因为 语言 本 
身 束 文 持 这 样 的 循环 ， 所 以 也 就 不 需要 Iterator 这 样 的 对 象 了 。 这 实在 
征 太 基本 的 东西 了 ， 也 许 都 不 应 该 称 之 为 设计 模式 了 。 


4.1.7 “外 部 与 内 部 ， 哪 一 个 更 好 


比较 外 部 迭代 釉 和 内 部 和 欠 代 器 ， 很 难说 哪 一 个 更 好 。 写 们 都 有 方便 的 
一 面 ， 也 都 有 不 方便 的 另 一 面 。 比 如 ， 在 没有 闭 包 的 语言 中 ， 要 使 用 
内 部 迭代 需 的 话 ， 束 不 能 用 块 来 实现 ， 而 是 要 传递 给 它 函 数 指针 ， 而 
且 如 有 条 需 要 传递 数据 的 话 ， 束 必须 以 参数 的 形式 从 外 部 明确 传递 过 

来 ， 程 序 变 得 非常 及 烦 。 


请 看 图 4-11。 这 十 以 Ruby 和 C 为 例 编写 的 对 哈 布 表 进 行 循环 的 内 部 
迭代 严 。Ruby 的 内 部 碗 代 右 古 用 块 来 实现 的 ， 代 码 看 起 来 非 尝 目 然 。 
但 C 是 用 函数 指针 来 实现 的 ， 束 比较 难以 理解 。C 语言 没有 闭 包 ， 循 
环 处 理 所 需 要 的 数据 都 要 以 参数 的 形式 明确 地 从 外 面 传递 进去 。 说 实 
话 真 是 及 烦 。 如 采 把 图 4-11 中 省 略 的 循环 处 理 的 实现 部 分 也 考虑 进来 
的 话 ， 两 者 的 兰 别 是 一 目 了 然 的 。 在 没有 闭 包 的 语言 中 ， 实 现 内 部 和 迭 
代 器 是 很 不 现实 的 。 


# 用 Ruby 对 哈 希 表 进行 循环 处 理 
h = Hash.new(...) 
h.each {|k,v| ...} 


jC 对 哈 希 表 进 行 循环 处 理 
static int 
each_func(st_data t key, st data t value, st data t arg) { 


return ST_CONTINUE,; 


int main() { 
h = st_init_ table(...) 
st_foreach(h, each_ func, arg) 


} 


图 4-11 C 和 Ruby 的 内 部 迭代 器 


因此 ， 没 有 闭 包 的 C++ 或 者 Java 语言 通常 使 用 男 外 准备 的 外 部 迭 代 器 
对 象 来 实现 循环 控制 。 用 Java 来 实现 Iterator 模式 的 程序 大 约 80 行 左 


右 。 图 4-12 仅 是 迭代 器 对 象 的 实现 部 分 的 代码 。 程 序 变 得 如 此 长 的 原 

因 主 要 是 要 解决 类 型 的 匹配 问题 。 在 Ruby 中 ， 对 Iterator 模式 的 类 构 

成 而 言 ， 当 然 是 内 部 撑 代 器 比较 方便 ， 但 这 并 不 表示 不 能 使 用 外 部 迭 

代 器 。 把 刚才 的 Java 版 程序 移植 成 Ruby， 程 序 还 不 到 50 行 。 图 4-13 

村 应 于 图 4-12 的 Ruby 程序 ，Ruby 外 部 迭代 器 的 使 用 方法 如 图 4-14 
ZR。 


abstract class Iterator { 
abstract public void First(); 
abstract public void Next(); 
abstract public boolean IsDone(); 
abstract public Object CurrentItem(); 


} 


class ArrayIterator extends Iterator { 
private IteratableArray _array = null; 
private int _current = -1; 
public ArrayIterator(IteratableArray array) { 
_array = array; 
_current = 0; 


public void First() { 
_current = 0; 


J 
public void Next() { 
++_Current ， 


} 
public boolean IsDone() { 
return _current >= _array.Sizel(); 


} 
public Object CurrentItem( ) { 
return array.Get(_current); 


图 4-12 ”Java 迭代 器 对 象 的 例子 


class ArrayIterator 

def initialize(array) 
Q@array = array 
Q@current = 0 

end 

def first() 
Q@current = 0 

end 


def next() 
Q@current += 1 
end 
def is_done() 
return @current >= @array.sizel() 
end 
def current_item() 
return @array.get(Q@current) 
end 


end 


图 4-13 Ruby 外 部 迭代 器 的 例子 


it = array.create iterator(); 
it.first() 
until it.is done() 

puts it.current_item() 


it.next() 
end 


图 4-14 ”Ruby 版 外 部 迭代 器 的 用 法 
与 Java 版 相 比 ， 你 觉得 怎么 样 ? 我 喜欢 更 清楚 易 懂 的 Ruby 版。 
4.1.8 ”内 部 迭代 器 的 缺陷 


在 有 闭 包 的 语言 中 ， 内 部 迭代 郁 具 有 容易 理解 、 容 易 实 现 以 及 目 然 雪 
痛 等 许多 非常 可 取 的 性 质 。 


但 是 ， 内 部 迭代 天 并 不 是 完美 无 缺 的。 内 部 迭代 硕 的 缺陷 是 ， 由 于 不 
能 同时 进行 多 个 循环 ， 也 吏 无 法 实现 按 顺 序 比 较 两 个 集合 元 素 的 处 


理 。 容 易 使 用 的 东西 也 有 它 没有 任何 使 用 价值 的 领域 。 


比如 ， 如 果 要 从 多 个 数组 中 把 一 个 个 元 素 取 出 来 进行 排列 的 话 ， 融 不 
能 使 用 内 部 迭代 右 ， 而 要 写成 图 4-15 的 样子 。 


# 内 部 迭代 器 无 法 实现 多 个 数组 要 素 的 并 列 处 理 
a = [1,2,3] 

b = [9,8,7] 

i=0 

result = [] 


while i<3 
result.push(a[i]) 
result.push(b[i]) 
end 

result # =>[1,9,2,8,3,7] 


# 用 外 部 迭代 器 就 很 简单 


ia = a.create iterator(); 

ib = b.create iterator(); 

ia.first(); ib.first() 

until ia.is done() or ib.is_done() 
result.push(ia.next) 
result.push(ib.next) 

end 


图 4-15 ”内 部 迭代 器 的 缺陷 


但 是 Ruby 也 在 改善 之 中 。 在 1.8.7 版 本 以 后 ， 几 乎 所 有 对 块 进行 循环 
的 方法 ， 在 没有 块 的 时 候 ， 会 返回 像 外 部 迭代 器 一 样 动作 的 
Enumerator 。 有 了 它 ， 不 用 再 特意 准备 外 部 迭代 器 ， 就 可 以 把 它 作 
为 外 部 迭代 器 来 使 用 。 


4-16 使 用 Enumerator 实现 了 图 4-15 同样 的 处 理 。 请 注意 ， 它 比 
使 用 外 部 迭代 器 (图 4-15 的 后 半 部 分 ) 的 程序 还 要 简单 。 


继续 图 4-15 的 程序 


result.push(ia.next) 
result.push(ib.next) 
end# 


图 4-16 使 用 Enumerator 进行 外 部 迭代 


实际 上 Enumerator 对 所 有 元 素 循 环 究 了 的 时 候 会 抛 出 
StopIteration 异常 。]oop 方法 收 到 该 异常 后 停止 循环 ， 而 不 需 
要 像 外 部 迭代 器 那样 每 次 去 问 “ 不 有 别 的 元 素 吗 ? ”， 所 以 使 用 
Enumerator 的 程序 变 得 更 简单 。 


4.1.9 ”外 部 迄 代 器 的 缺陷 


那么 ， 外 部 适 代 融 征 不 是 就 没有 问题 了 呢 ? 外 部 适 代 融 的 缺陷 在 于 适 
代 器 〈 游 标 ) 对 象 需要 引用 集合 对 象 的 内 部 信息 。 为 了 按 顺序 访问 集 
合 对 象 的 各 个 元 素 ， 迭 代 融 对 象 需要 访问 集合 的 内 部 构造 。 这 陨 破 坏 
了 隐蔽 集合 内 部 构造 的 封 疤 性 原则 。 因 为 集合 类 与 迁 代 絮 类 非常 紧密 
地 关联 在 一 起 ， 束 需要 特别 注意 它们 内 部 构造 的 更 新 。 


比如 ，C++ 使 用 friend 修饰 词 来 允许 大 代 器 访问 集合 的 内 部 构造 。 
这 束 破 坏 了 对 象 的 封 流 性 原则 。 于 是 Ct+ 只 好 使 用 friend 来 实现 。 


4.2 设计 模式 (2) 


前 一 节 学 习 了 "设计 模式 是 什么 ”。 我 们 把 设计 上 反复 出 现 的 模式 称 为 
设计 模式 。 最 简单 的 例子 就 是 for 循环 。 《设计 模式 》 一 书 把 设计 模 
式 进行 了 明确 分 类 ， 极 具 参 考 价值 。 


上 区 讲述 过 Singleton、Proxy 及 Iterator 各 模式 ， 本 和 再 来 考察 几 个 别 
的 设计 模式 。 下 面 按 顺 序 来 考察 Prototype、Template Method 和 
Observer 这 三 个 设计 模式 。 


4.2.1 ”模式 与 动态 语言 的 关系 


《设计 模式 》 一 书 介绍 了 23 个 设计 模式 。 这 些 设计 模式 可 以 分 为 3 大 
类 : 有 关 生 成 的 模式 (5 个 ) ， 有 关 构 造 的 模式 (7 个 ) 以 及 有 关 行 为 
的 模式 (11 个 ) 。 如 果 把 上 节 中 三 个 模式 进行 这 种 分 类 的 话 ， 那 么 
Singleton 模式 属于 有 关 生 成 的 模式 ，Proxy 模式 属于 有 关 构 造 的 模 
式 ， 而 Iterator 模式 则 属于 有 关 行 为 的 模式 。 


设计 模式 是 从 〈 面 向 对 象 ) 编程 中 经 常 出 现 的 程序 构造 中 抽象 出 来 
的 ， 所 以 它 与 语言 无 关 ， 可 以 适用 于 任何 编程 语言 。《 设 计 模 式 》 的 
例题 主要 是 用 C++ 写 成 的 ， 其 中 也 有 用 Smalltalk 写 的 例题 ， 但 同样 的 
原则 对 Java 也 完全 适用 。 当 然 对 Ruby 也 是 完全 一 样 的 。 


但 是 ，Ruby 或 Smalltalk 这 样 的 动态 语言 ， 与 C++ 或 Java 这 样 的 静态 
语言 相 比 ， 即 使 是 同样 的 设计 模式 ， 使 用 方法 也 会 略 有 不 同 。 这 次 残 
着 重 从 这 一 点 来 考察 几 个 设计 模式 。 


4.2.2 重复 使 用 既 存 对 象 的 Prototype 模 式 


引用 《设计 模式 》 一 书 中 的 解释 ，Prototype 〈 原 型 ) 模式 “明确 一 个 实 
例 作为 要 生成 对 象 的 种 类 原型 ， 通 过 复制 该 实例 来 生成 新 的 对 象 ”。 


《设计 模式 》 中 这 一 模式 的 例题 使 用 的 是 迷宫 生成 类 MazeFactory。 这 

一 例子 通过 拥有 生成 场 、 房 间 、 门 等 对 象 的 原型 ， 不 需要 派生 束 可 以 
生成 各 种 各 样 的 迷 言 。 但 是 ， 说 实话 ， 这 个 例题 并 没有 让 人 真正 感觉 
到 原型 的 宇 贵 之 处 。 


实际 上 ，Prototype 模式 本 来 并 不 太 适 用 于 C++ 这 样 的 静态 语言 。 在 动 
态 语 言 中 ，Prototype 模式 才能 够 真正 发 挥 它 的 巨大 威力 。 


通常 在 面 问 对 象 的 语言 中 ， 首 先 准备 好 所 谓 的 类 ， 也 吏 是 对 象 的 雏 
形 ， 然 后 从 类 来 生成 实际 的 对 象 ， 这 些 做 法 都 是 理所当然 的 。 在 面 加 
对 象 编程 中 ， 类 是 最 为 基本 的 存在 。 


但 是 ， 类 真 的 是 必需 的 吗 ? Smalltalk 的 “ 亚 种 ”Self 语言 的 设计 人 员 就 
认为 类 并 不 古 必需 的 。Self 中 不 存在 所 谓 的 类 ， 基 本 操作 并 不 是 从 类 
来 生成 对 象 ， 而 是 复制 对 象 。 


基本 思想 束 是 如 此 。 


在 需要 新 种 类 对 象 的 时 候 ， 首 先 复 制 一 个 既 存 的 对 象 ， 给 复制 的 对 象 
直接 增加 方法 或 实例 变量 等 功能 ， 生 成 最 初 的 第 一 个 新 种 类 对 象 。 如 
果 该 对 象 需要 不 止 一 个 的 话 ， 那 束 从 第 一 个 锥 型 来 复制 ， 需 要 几 个 谍 
复制 几 个 。 最 初 一 个 虽然 是 锥 形 ， 但 它 并 不 是 所 请 类 这 种 人 为 生成 的 
特别 对 象 ， 而 是 一 个 普通 的 对 象 ， 只 不 过 偶尔 被 用 来 复制 而 已 。 


和 骏 形 这 个 词 对 应 的 英语 是 Prototype。 像 这 样 的 不 用 类 ， 而 是 用 原型 模 
式 和 复制 方法 的 编程 语言 称 为 原型 模式 的 编程 语言 。 实 际 上 ， 
Prototype 模式 不 单 是 一 种 设计 模式 ， 也 许 称 为 一 种 编程 范例 才 更 为 合 


1 
相对 于 类 模式 的 编程 ， 原 型 模式 的 编程 的 构成 元 素 比较 少 ， 具 有 倘 单 


实现 面 同 对 象 功能 设计 的 和 倾 加。 因此 ， 最 近 有 越 来 越 多 的 规格 较 小 的 
编程 语言 采用 这 种 模式 。 比 如 ， 大 多 数 Web 浏 贤 右 中 藤 入 的 


JavaScript 的 面 癌 对 象 功能 就 是 原型 模式 的 。 最 近 ， 受 到 一 部 分 人 关注 
的 Io 语言 ! 也 是 原型 模式 的 。 
1 关于 原型 模式 的 面向 对 象 编程 语言 1Io， 请 参阅 http://www.iolanguage.com/ 。 关 于 语言 的 基 


础 ， 请 参阅 笔者 在 Rubyist Magazine 上 的 投稿 (http://jp.rubyist.net/magazine/?0010-Legwork 
) o 


4.2.3 ”亲身 体验 To 语言 


只 讲理 论 还 是 难以 得 到 具体 的 印象 ， 那 束 让 我 们 边 看 实际 程序 ， 边 来 
亲 映 体验 原型 模式 的 编程 吧 。 虽 然 用 Ruby 也 可 以 进行 原型 模式 的 编 
程 ， 但 这 次 我 们 使 用 更 为 彻 抵 的 To 语言 (参见 图 4-17) 。 


// 复制 0bject 1 
Dog := Object clone 


// 把 sit 方法 教 给 雏形 Dog 2 
Dog Sit := method("I'm sitting.\n" print) 


// Dog 是 狗 ， 所 以 会 坐 3 
Dog sit 


// 从 色 形 Dog 生成 新 的 myDog 4 
myDog := Dog clone 


ly 


图 4-17 使 用 Io 语言 的 民 


型 模式 的 编程 示例 


让 我 们 来 仔细 看 看 图 4-17 吧 。 这 是 描述 狗 的 简单 例子 。 虽 然 没 有 实用 
性 ， 但 从 中 应 该 能 体会 到 原型 模式 的 气氛 。 


1 的 部 分 生成 新 的 对 象 ， 赋 值 给 名 为 Dog 的 变量 。 请 注意 ， 这 里 出 现 
的 0bject 和 Dog 都 不 是 类 。 在 Io 语言 中 ，0bject 只 是 有 代表 性 
的 对 象 ， 除 最 基本 的 以 外 其 他 什么 都 不 知道 。 以 它 为 基础 可 以 生成 各 
种 锥 形 。 这 里 调用 clone 方法 来 复制 一 个 基础 对 象 ， 并 给 它 起 个 名 
字 ， 叫 做 Dog。 刚 刚 复制 出 来 的 Dog 对 象 跟 0bject 是 一 样 的 ， 没 
有 狗 的 任何 功能 。 


只 是 0bject 的 话 ， 什 么 功能 都 没有 ， 古 没有 任何 使 用 价值 的 ， 让 我 
们 来 教 给 它 狗 的 功能 吧 。2 部 分 中 先是 给 它 定 一 个 “ 坐 下 ”的 sit 方 


i 


法 。 把 一 个 method 对 象 赋值 给 Dog 对 象 的 Sit 属性 ， 就 给 Dog 对 
象 退 加 了 一 个 方法 。 


调用 Sit 方法 就 等 于 调用 " 工 m sitting\.n"print ， 显 示 工 'm 
sitting .。 这 一 部 分 相当 于 调用 字符 串 对 象 的 print 方法 ， 从 中 可 
以 体会 到 彻底 的 面向 对 象 编 程 。 这 个 例子 中 仅仅 增加 了 一 个 sit 方 
法 ， 实 际 上 根据 需要 想 追 加 几 个 方法 就 可 以 追加 几 个 。 

你 看 ，Dog 对 象 就 是 这 样 实 现 的 。 再 强调 一 裔 ， 其 中 作为 锥 形 的 是 狗 
对 象 ， 而 不 是 类 。 因 此 ，3 部 分 中 对 Dog 对 象 调用 sit 方法 的 时 候 ， 
结果 与 其 他 狗 一 样 显示 出 I'm sitting.。 


在 像 Ruby 这 样 类 模式 的 语言 中 ， 作 为 对 象 锥 形 的 类 拥有 与 对 和 象 完 
不 同 的 方法 〈 类 的 方法 ) ， 而 与 之 相对 的 是 ， 原 型 模式 的 语言 下 要 本 
就 没有 类 的 存在 ， 雏 形 与 基于 它 生成 的 对 象 是 完全 一 样 的 。 


4 部 分 使 用 clone 方法 基于 雏形 生成 新 的 狗 对 象 。 这 里 请 注意 ， 不 管 
是 生成 新 的 雏形 ， 还 是 从 雏形 生成 新 的 对 象 ， 都 是 仅仅 使 用 clone 方 
法 实现 的 。 在 类 模式 的 语言 中 ， 用 子 类 化 和 实例 化 这 两 个 不 同 的 概念 
这 里 仅仅 用 clone 这 样 一 个 简单 的 程序 就 实现 了 ， 真 让 
人 感动 。 

当然 ， 人 简单 并 不 都 是 一 切 ， 原 型 模式 有 原型 模式 的 优点 ， 类 模式 也 有 
类 模式 的 优点 ， 因 为 原型 模式 的 语言 还 不 太 广 为 人 知 ， 这 里 特意 选 它 
作为 例子 ， 就 是 为 了 让 大 家 体会 一 下 它 的 单纯 。 

4.2.4 Ruby 中 的 原型 


本 Ruby 年关 全 二 的 语 再 忆 ， 但 也 拥有 文 持 原型 模式 编程 的 功 
， 有 具体 来 说 有 以 下 3 种 功能 


. 复制 对 象 的 clone 方法 。 

合 个 别 对 象 增加 方法 的 特异 方法 功能 

合 个 别 对 象 增加 一 组 功能 的 extend 方法 。 
4-18 是 用 Ruby 重 写 的 图 4-17 的 程序 。 


一 


生成 锥 形 对 象 
t = Object.new 
复制 object 

g object.clone 
// 给 雏形 dog 增加 sit 方法 
def dog.sit 

print "I'm sitting\n" 
end 


// dog 是 狗 ， 会 sit 
dog.sit 


// 从 雏形 dog 生成 新 的 myDog 
myDog = dog.clone 


图 4-18 Ruby 的 原型 模式 编程 ， 这 是 用 Ruby 重 写 的 图 4-17 的 内 容 


因为 Ruby 中 没有 像 Io 语言 中 0bject 这 样 一 个 对 象 原型 ， 所 以 作为 
准备 ， 程 序 一 开始 (object = 0bject. new) 先是 生成 一 个 
0bject 类 的 实例 。 在 这 以 后 ， 除 了 语法 上 细微 的 区 别 之 外 ， 差 不 多 
是 把 Io 程序 照搬 过 来 的 。 


从 中 我 们 可 以 看 到 动态 语言 中 Prototype 模式 这 种 令 人 吃惊 的 力量 。 这 
在 必须 明确 对 象 类 型 的 静态 语言 中 是 实现 不 了 的 。 因 为 在 静态 语言 中 
没有 原型 编程 ， 是 不 可 能 给 复制 的 对 象 增 加 新 方 法 的 。 


4.2.5 “编写 抽象 算法 的 Template Method 模 式 


接着 来 看 Template Method 〈 模 板 方 法 ) 吧 。 还 是 引用 《设计 模式 》 中 
的 解释 ，Template Method 模式 是 : “在 父 类 的 一 个 方法 中 定义 算法 的 
框架 ， 其 中 几 个 步骤 的 具体 内 容 则 留 给 子 类 来 实现 。 使 用 Template 
Method 模式 ， 可 以 在 不 改变 算法 构造 的 前 提 下 ， 在 子 类 中 定义 算法 的 


这 实际 上 是 面向 对 象 编程 中 使 用 继承 的 一 般 技巧 。 


作为 例子 ， 让 我 们 来 看 一 下 Ruby 的 p 方法 吧 。p 方法 是 程序 调试 中 
用 来 显示 对 象 内 容 的 方法 。 显 示 调 试 信息 的 算法 主要 有 是: 


1. 把 对 象 的 调试 用 输出 信息 转换 成 字符 串 ; 
2. 调用 puts 方法 输出 。 
这 束 古 调试 辆 出 的 工法 ， 因为 实在 是 太 简 单 了 ， 称 之 为 算法 简直 有 些 


过 分 。 

但 实际 上 令 人 意外 的 是 ， 为 了 输出 调试 信息 ， 分 别 为 各 种 对 象 定义 调 

试用 输出 字符 串 是 非常 困难 的 。 针 对 各 种 不 同 的 类 都 要 分 别 进行 不 同 

处 理 ， 这 就 很 轩 礁 了 ， 每 次 增加 新 闫 的 时 候 ， 为 支持 新 关 也 部 需要 做 
量 的 工作 。 


这 时 候 使 用 Template Method 模式 ， 问 题 承 变 得 简单 了 。 使 用 Template 
Method 模式 ， 和 输出 调试 信息 的 p 方法 会 变 成 如 下 的 代码 ， 人 简单 得 出 乎 


def p(obj ) 


puts obj.inspect 
end 


这 个 简单 的 方法 只 是 把 算法 的 1 和 2 原封 不 动 地 换 成 了 程序 语言 。 在 
这 个 定义 中 ， 各 种 对 象 中 准备 调试 信息 的 具体 处 理 是 由 该 对 象 的 
inspect 方法 来 实现 的 。 在 定义 新 类 的 时 候 ， 只 要 给 它 定 义 了 合适 的 
inspect 方法 ， 束 可 以 在 任何 时 候 使 用 p 方法 来 输出 适当 的 调试 信 
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在 父 类 中 定义 抽象 化 的 算法 ， 调 用 隐藏 了 实现 细 广 的 方法 ， 然 后 在 子 
类 中 实现 具体 的 细 广 ， 这 就 是 Template Method 模式 。 


4.2.6 ”用 Ruby 来 尝试 Template Method 


Ruby 的 类 库 中 最 大 限度 灵活 运用 Template Method 模式 的 部 分 ， 应 该 
说 是 Enumerable 模块 和 Comparable 模块 了 。 


Enumerable 模块 中 实现 循环 的 each 方法 采用 了 Template Method 
模式 。 表 4-2 是 Enumerable 模块 的 方法 一 览 。 


表 4-2 ”Enumerable 提供 的 方法 


RR 
ET | 和， 反 同 结果 的 
对 各 元 素 和 0 
你 区 的 所 有 元 素 过 行 关中 
元 素 与 

这 


ey | 
ET 有 
[ga SS 
IE 返回 最 大 的 元 素 


进 和 人 本 
max_by{|x|...} 、 返回 结果 最 大 的 元 素 


本 
[CT SR 


3 元 素 进 行 回 结 果 最 小 ES 
各 元 素 进 1 i : 换 ， 最 小 的 元 素 (Ruby 


er | 
sort_by{lxl...} | 对 各 元 素 ; 结果 对 元 素 进行 排序 


to_a 返回 元 素 的 数组 


FTC 


zip(a,...){larr|...} 集合 进行 串 接 ， 然 后 进行 块 中 的 计算 


这 些 方法 的 定义 都 是 仅仅 依赖 于 each 方法 。 因 此 ， 在 用 户 定义 的 类 
中 ， 只 要 定义 了 each 方法 ， 一 旦 把 Enumerable 模块 包含 
(include ) 进来 ， 束 都 可 以 使 用 表 中 的 32 个 方法 了 。 


Enumerable 模块 实际 上 是 用 C 编写 的 ， 用 Rudy 也 可 以 简单 地 定义 
同样 的 模块 ， 那 就 让 我 们 边 看 Ruby 的 定义 ， 边 来 考虑 一 下 如 何 更 好 
地 使 用 Template Method 模式 ? 。 


2 在 Ruby 早期 的 版 本 里 ，Enumerable 模块 是 用 Ruby 定义 的 。 后 来 考虑 列 性 能 及 库 的 使 用 方 
便 性 ， 又 用 C 重新 编写 了 。 


其 中 一 个 实现 起 来 最 为 简单 的 方法 ， 应 该 是 收集 所 有 元 聚 的 entries 
方法 了 。entries 方法 的 实现 代码 如 图 4-19 所 示 。 看 一 下 图 4-19 惑 
能 明日 ， 处 理 内 容 是 很 简单 的 。 


def entries 
result = [] 
self.each {lelem| 
result << elem 


return result 
end 


图 4-19 用 Ruby 实现 的 entries 方法 


1. 生成 数组 。 

2. 用 each 取出 每 个 元 素 。 
3. 把 元 素 妃 加 到 数组 里 。 
4. 最 后 返回 数组 。 


从 中 可 以 看 出 ， 这 个 方法 只 是 定义 了 自己 处 理 的 框架 ， 对 应 于 每 个 对 
象 的 处 理 则 由 each 方法 来 提供 。 


像 Template Method 模式 的 这 种 使 用 方法 ， 在 Comparable 模块 中 也 
是 一 样 的 。 


Comparable 模块 利用 基本 的 比较 大 小 方法 <=>， 提 供 各 种 比较 演 
算 。<=> 方 法 把 自身 与 参数 相 比 较 ， 如 果 上 自身 较 大 ， 则 返回 正 整 数 ; 
若 二 者 相等 ， 则 返回 0， 若 目 坪 较 小 ， 则 返回 负 整 数 。 以 这 个 方法 为 
基础 ，Comparable 模块 提供 了 ==、>、>=、<“、<= 以 及 
between? 共 6 种 比较 运算 。 


作为 Comparable 提供 的 比较 运算 的 代表 ， 我 们 来 看 一 看 > 方法 的 实 
现 吧 (参见 图 4-20) 。 实 际 上 > 方法 还 要 加 上 错误 处 理 ， 但 基本 处 理 
如 图 4-20 所 示 。 


def >(other) 


cmp = self <=> other 
If cmp > 0 
return true 
else 
return false 
end 
end 


图 4-20 用 Ruby 实现 的 > 方法 

像 这 样 使 用 Template 模式 ， 可 以 不 涉及 各 种 数据 结构 细 方 ， 而 只 在 抽 
象 的 水 平 上 编写 算法 的 程序 。 也 就 是 说 ， 算 法 是 在 抽象 水 平 很 高 的 状 
态 下 表述 的 ， 同 样 的 代码 能 够 适用 于 各 种 各 样 的 情况 。 

这 样 避免 了 代码 的 重复 ， 从 DRY 原则 的 观点 来 看 3 ， 也 是 很 优秀 的 。 


3 所 谓 DRY (Don't Repeat Yourself) 原则 ， 是 指 彻底 避免 重复 。 在 几乎 所 有 领域 ， 这 都 是 一 
个 提高 软件 开发 效率 和 可 靠 性 的 有 效 原 则 。 和 希望 大 家 时 刻 牢 记 在 心 。 


4.2.7 ”动态 语言 与 Template Method 模 式 


一 般 Template Method 模式 与 继承 往往 是 成 对 讨论 的 ， 但 像 
Enumberable 那样 ， 只 需要 包含 (include) 进来 ， 不 管 继承 关系 如 
何 ， 即 可 以 回 任 何 类 里 追加 功能 ， 这 一 点 很 有 魅力 。 本 来 ，Ruby 的 
include 就 是 一 种 受 限 的 多 重 继承 ， 这 没有 什么 不 可 思议 的 。 


Template Method 模式 的 这 种 优秀 性 质 与 语言 是 不 是 静态 没有 关系 。 像 
Java 那 种 舍 有 静态 类 型 ， 而 且 不 允许 多 重 继承 的 语言 ， 必 须 强制 性 地 

拥有 继承 关系 。 所 以 ， 像 Enumerable 这 样 在 各 种 各 样 的 类 中 都 能 利 
用 的 算法 集 ， 使 用 Template Method 模式 很 难 实现 (interface 与 委托 的 
组 合 也 不 是 不 可 能 ) ， 但 这 不 是 静态 语言 的 问题 。 


但 是 ， 像 Io 与 Ruby 这 种 也 善于 用 原型 模式 编程 的 语言 ， 往 前 进化 了 
一 步 ， 可 以 往 特 定 对 象 里 追加 算法 集 。 图 4-21 表示 往 特 定 对 象 里 追加 
Enumerable 功能 ， 虽 然 这 个 例 季 有 点 牵强 。 


# 生成 一 个 对 象 
dice = Object.new 
# 定义 each 方法 


def dice.each 


# 首先 掷 10 回 山子 
10.times do 
yield rand(6)+1 
d 


往 dice 里 追加 Enumerable 的 功能 
dice.extend(Enumerable) 


# 用 继承 的 reject 方法 排除 3 以 下 的 数 


p dice.reject{|x| x<=3} 


图 4-21 往 特 定 对 象 里 追加 Enumerable 功能 的 示例 


尽管 哪儿 也 没 定义 类 ， 但 使 用 extend ， 盟 子 对 象 中 就 能 够 利用 
Enumerable 模块 的 功能 了 。 用 extend 及 特异 方法 往 特 定 对 象 里 追 
加 功能 的 做 法 ， 也 能 够 用 来 实现 Singleton 模式 。 


4.2.8 ”避免 高 度 依 赖 性 的 Observer 模式 


Observer (观察 者 ) 模式 是 当 某 个 对 象 的 状态 发 生变 化 时 ， 依 存 于 该 
状态 的 全 部 对 象 都 目 动 得 到 通知 ， 而 且 为 了 让 它们 都 得 到 更 新 ， 定 义 
了 对 象 间 一 对 多 的 依存 关系 。 


这 征 控 制 类 与 类 之 间 依存 关系 的 一 种 模式 。 举 一 个 例子 ， 想 想 微 软 的 
Excel 软件 吧 。 以 表 中 的 数据 为 基础 表示 图 形 的 时 候 ， 编 辑 了 表 中 的 数 
据 之 后 ， 目 然 硕 望 图 形 的 内 容 也 跟着 变化 。 或 者 ， 从 同一 组 数据 ， 也 
经 常 想 同 时 看 到 直方 图 和 局 形 图 等 多 种 图 形 。 


能 够 实现 这 一 要 求 的 最 简单 的 方法 ， 应 该 是 在 表 编 辑 功能 里 附加 更 新 
图 形 显示 的 处 理 。 但 是 这 样 做 的 话 ， 附 加 的 是 与 表 编 辑 在 本 质 上 不 同 
的 处 理 手段 ， 使 事情 复杂 化 ， 更 重要 的 是 ， 当 想 要 再 利用 表 编 辑 功能 
时 ， 还 要 率 连 到 不 一 定 必要 的 图 形 显示 功能 。 表 编辑 功能 与 图 形 显 示 
功能 之 间 的 这 种 关系 称 为 高 度 依赖 性 。 


一 般 地 说 ， 高 度 依赖 性 不 好 。 从 本 质 上 讲 ， 软 件 是 个 复杂 的 东西 ， 为 
了 控制 复杂 性 ， 有 效 的 方法 是 将 整体 分 割 成 几 个 相互 独立 的 部 分 进行 
开发 。 但 是 ， 有 了 高 度 依赖 性 ， 就 不 能 将 组 成 程序 的 “零件 ”( 类 以 及 
进行 分 解 ， 一 个 一 个 的 “零件 ”会 很 大 ， 结 果 复 杂 性 就 很 难 控 
[| o 


Observer 模式 征 一 种 避免 这 种 高 度 依赖 性 的 手段 。 构 成 观察 着 模式 的 
有 两 个 对 象 ， 一 个 称 为 Observer (观察 者 ) ， 接 受 变 更 通知 ; 另 一 个 
称 为 Subject (对 和 象 ) 或 Observable (被 观察 者 ) ， 发 出 变更 通知 。 


说 说 刚才 的 表 编 辑 的 例子 ， 表 数据 束 是 Subject， 图 形 束 是 Observer。 
从 观察 者 与 被 观察 者 这 两 个 名 字 上 ， 被 观察 者 计 人 得 到 被 动 的 印象 ， 
在 实际 处 理 中 ， 被 观察 者 会 发 出 通知 “我 已 经 变化 了 哦 ”。 


4.2.9 Observable 模块 


Ruby 中 为 实现 Observer 模式 提供 了 名 为 observer 的 库 。observer 库 提 
供 Observer 模块 。Observer 模块 的 API 请 参见 表 4-3。 实 际 的 库 使 用 
如 图 4-22 所 示 。 


表 4-3 Observable 模块 的 API (应 用 编程 接口 ) 
方法 名 功 能 


add_observer (observer) 增加 观察 者 

delete_observer(observer) 删除 特定 观察 者 
观察 者 的 数目 

changed(state = true) 设置 更 狐 标 志 为 真 


changed? 


合 查 更 六 
， 调 用 观察 者 带 参 数 
notify_observers(*arg) 


require "observer" 


更 新 通知 


class Tick 


include Observable 
def tick 
loop do 
now = Time.now 
changed 
notify_observers(now.hour, now.min, now.sec) 
sleep 1.0 - Time.now.usec / 1000000.0 
end 
end 
end 


# 观察 者 (0bserver) 
# 依照 通知 ， 表 示 现 在 时 刻 的 类 (文字 版 ) 


class TextClock 


def update(h,m,s) 
printf "\e[8D%02d:%02d:%02d", h, m, s 
STDOUT. flush 
end 
end 


tick = Tick.new 
tick.add_ observer(TextClock.new) 
tick.tick 


图 4-22 ”使 用 observer 库 的 Ruby 程序 ， 观 察 者 与 被 观察 者 不 相互 依存 


解释 一 下 图 4-22 中 的 程序 。 首 先是 require observer 库 。 利 用 库 
的 时 候 ， 这 是 必须 写 的 。 


然后 是 定义 被 观察 者 类 Tick。 注 释 中 也 写 道 ， 该 类 每 秒 发 送 1 次 更 
新 通知 。 它 是 相当 于 时 钟 的 类 。Tick 的 发 音 ， 好 像 是 时 钟 的 滴答 滴 

答 声 。Tick 是 被 观察 者 ， 所 以 要 将 Observable 模块 包含 进来 。 仅 
一 句 话 就 能 让 任意 类 成 为 被 观察 者 ， 这 正 是 Ruby 的 威力 。 


tick 方法 是 主 循环 。 有 了 这 个 处 理 ， 每 隔 1 秒 ， 循 环 就 发 出 更 新 通 
知 。 虽 然 仅 仅 睡 眠 1 秒 ， 但 为 了 保证 能 在 整 秒 发 出 更 新 通知 ， 便 以 微 
秒 为 单位 进行 了 补正 (sleep 1.0 - Time,.. 的 部 分 ) 。 


实际 的 更 新 通知 只 是 调用 changed 方法 设置 更 新 标志 ， 然 后 用 
notify_observers 方法 通知 观察 者 。 它 们 都 写 在 lo0op (循环 ) 
内 [© 


虽然 在 这 种 每 次 肯定 都 要 定期 发 出 更 新 通知 的 情况 ， 把 changed 与 
notify_observers 分 离开 来 没有 意义 ， 但 是 考虑 到 会 有 频繁 变 
化 、 每 次 更 新 处 理 的 花费 都 比较 大 的 情况 ， 还 是 将 二 者 分 离开 了 。 比 
如 刚才 的 表 编 辑 的 例子 中 ， 与 其 在 每 次 细微 的 变化 后 都 要 更 新 图 形 ， 
不 如 在 键盘 输入 告 一 段落 时 再 集中 更 新 图 形 ， 应 该 更 有 效率 。 


后 半 部 分 的 TextClock 类 是 观察 者 类 。 依 照 Tick 发 送 的 通知 ， 在 控 
制 画面 上 显示 现在 时 刻 。TextCclock 类 不 是 特定 类 的 子 类 或 者 别 的 
什么 ， 只 是 拥有 被 更 新 通知 调用 的 update 方法 。update 方法 接受 
Tick 类 notify_observers 方法 传 过 来 的 有 时、 分、 秒 二 个 整数 参 
数 。 


实际 显示 用 了 ANSI 的 转 义 字符 (printf 以 下 的 部 分 | 。 用 
ESC[8D] 将 光标 移 到 行 首 ， 后 面 显示 时 刻 。 为 避免 缓冲 问题 ， 每 次 都 
调用 STDOUT.flush 。 


定义 了 Tick (被 观察 者 ) 与 Textclock (观察 者 ) 两 个 类 之 后 就 
简单 了 。 先 生成 Tick 类 的 对 象 【图 4-22 倒数 第 3 行 的 部 分 ) ， 然 后 
使 之 与 TextClock 类 相关 联 ， 最 后 启动 Tick 类 的 主 循环 (图 4-22 
的 末尾 部 分 ) ， 就 这 么 多 。 


执行 图 4-22 的 程序 ， 控 制 画面 上 束 会 显示 出 一 个 数字 时 钟 。 因 为 是 无 
限 循 环 ， 想 要 停止 时 ， 请 按 下 Ctrl+C 。 


这 次 只 做 了 一 个 观察 Tick 类 的 对 象 Textclock ， 如 果 愿 意 ， 可 以 
添加 任意 多 个 观察 者 。 比 如 ， 对 同一 个 Tick ， 不 光 能 添加 文字 时 
钟 ， 还 可 以 添加 图 形 时 钟 。 


这 个 程序 最 应 该 注意 的 一 点 是 ，Tick 类 与 TextClock 之 间 的 关 
联 ， 只 用 一 行 (图 4-22 倒数 第 2 行 ) 就 完成 了 。Tick 类 与 
TextClock 类 之 间 ， 只 有 “更 新 以 后 ， 调 用 update 方法 ”以 及 “在 
update 方法 中 ， 传 递 时 、 分 、 秒 ”这 种 简单 的 约定 ， 不 存在 别 的 关 
系 。 只 要 是 遵守 相同 约定 的 类 ， 都 可 以 简单 地 进行 交换 。 


可 以 看 出 ， 使 用 Observer 模式 ， 显 然 能 够 降低 相互 依赖 性 。 既 可 以 将 
观察 者 类 做 成 零 部 件 ， 又 可 以 根据 需要 更 换 被 观察 者 (比如 测试 用 的 
。 这 个 性 质 对 于 提高 软件 的 开发 效率 和 测试 效率 ， 都 是 很 有 


4.2.10 “Observer 模式 与 动态 语言 


动态 语言 的 性 质 在 Observer 模式 中 也 很 有 用 。 由 于 Ruby 的 动态 性 
质 ，observer 库 具 有 以 下 几 方 面 的 灵活 性 。 


1. 观察 者 类 不 必 是 特定 类 的 子 类 。 

2. 观察 者 类 不 必 实 现 特定 的 接口 (本 来 在 Ruby 中 也 没有 接口 ) 。 

3. 观察 者 类 的 更 新 方法 名 可 以 目 由 决定 (Ruby 1.9 的 功能 ) 。 

4. 观察 者 类 更 新 方法 的 参数 可 以 自由 决定 。 

5. 被 观察 者 类 不 必 是 特定 类 的 子 类 。 

6. 对 被 观察 者 类 的 要 求 ， 只 是 将 0Observable 模块 包含 进来 。 
我 想 Java 那 种 静态 语言 也 具有 与 Ruby 的 observer 库 相 同 功能 的 库 。 


事实 上 ， 有 几 种 DI 容器 (Dependency Injection Container) 框架 ， 也 
具有 与 observer 库 相 类 似 的 处 理 。 


但 是 ， 如 于 编码 太 乏 杂 了 ， 或 者 需要 用 XML 文件 代 玲 Java 来 振 述 类 
之 间 关联 的 话 ， 我 认为 就 没有 Ruby 这 么 好 用 了 。 


* * * 


本 节 从 与 动态 语言 相关 联 的 观点 解释 了 设计 模式 中 的 Prototype 模式 、 
Template Method 模式 和 Observer 模式 。 作 为 对 设计 模式 的 总 结 ， 下 面 
看 一 看 设计 模式 与 软件 开放 一 封闭 原则 (Open-Close principle) 。 


4.3 设计 模式 (3) 


很 久 以 前 ， 技 术 人 员 将 计算 机 的 机 械 部 分 称 为 硬件 ， 这 是 计算 机 所 有 
实体 部 件 和 设备 的 统称 。 与 此 相对 应 ， 没 有 实体 的 程序 被 称 为 软件 。 
如 今 硬 件 和 软件 作为 计算 机 关联 用 语 已 经 固定 下 来 了 ， 但 当初 却 是 技 
术 人 员 之 间 的 俗语 。 


说 起 软件 ， a 但 事实 上 ， 名 过 爱河 性 鸭 东 卫 有 
很 多 。 程 序 规模 小 的 时 候 ， 还 能 够 简单 地 更 改 ， 让 人 觉得 有 灵活 性 
但 对 于 那些 大 规模 商用 软件 ， 各 部分 依存 关系 很 紧 窗 ， 改 动 一 个 地 广 
忠 会 对 别 的 地 方 有 影响 ， 总 是 不 能 随心 所 欲 地 更 改 。 


4.3.1 ”软件 开发 的 悲剧 


在 软件 开发 过 程 中 ， 会 遇 原因 归结 起 来 主要 有 两 
sl 二 个 是 复 染 性 ， 一 个 是 变化 性 。 


软件 的 规模 越 和 大， 各 个 部 分 之 间 的 窑 连 越 复杂 ， 更 改 也 束 越 难 。 如 有 
软件 单纯 而 且 规 模 小 ， 更 改 还 相对 容易 。 随 着 计算 功能 的 提高 ， 交 给 
计算 机 的 任务 规模 也 越 来 越 大 。 几 乎 所 有 的 软件 ， 都 随 着 用 户 需 求 的 
提高 而 得 以 扩展 ， 变 得 越 来 越 复杂 。 


如 有 果 只 是 增加 软件 功能 ， 也 不 会 引起 那么 多 的 问题 。 但 是 ， 在 软件 开 
发 过 程 中 ， 需 求 变 更 几乎 是 不 可 避免 的 。 在 洽谈 时 ， 即 便 已 经 同意 了 
画 在 纸 上 的 软件 模型 ， 可 一 旦 见 到 了 程序 , “还 是 感觉 不 对 劲 ， 硕 望 再 
改 一 改 ”， 很 多 用 户 都 会 这 么 说 。 我 目 己 作为 一 个 多 年 的 职业 程序 员 ， 

对 于 用 户 想到 哪儿 就 是 哪儿 的 作法 ， 也 经 常会 发 牢骚 。 


话 虽 这 样 说 ， 前 儿 天 ， 我 委托 同事 写 了 一 个 程序 ， 尽 管事 前 已 经 同意 
了 需求 ， 但 看 了 实际 程序 以 后 ， 还 是 妨 不 住 说 :“ 与 想象 的 稍微 不 同 ， 
能 这 样 改 一 改 吗 ? ” 目 己 竟然 也 跟 那 些 被 我 发 过 牢骚 的 用 户 完全 一 样 
了 ， 了 唤 ， 只 能 感叹 人 是 多 么 地 目 私 任性 。 


先 不 说 这 些 了 ， 尽 管 软件 越 来 越 复杂 ， 更 改 所 需要 的 花费 越 来 越 大， 
但 用 户 要 求 却 越 来 越 多 样 化 ， 对 软件 的 变更 要 求 也 越 来 越 频 紧 。 长 此 
以 往 ， 软 件 开 发 肯定 要 在 什么 地 方 失 败 。 


4.3.2 ”开放 一 封闭 原则 
面 对 以 上 情况 ， 有 用 的 原则 是 开放 一 封闭 原则 (open-closed 


principle) 。 开 放 一 封闭 原则 是 Eiffel 语言 的 设计 者 Bertrand Meyer 在 
oe 《 面 癌 对 象 的 软件 构造 》 中 介绍 的 原则 。 其 定义 如 下 ， 非 常 简 


对 模块 扩展 必须 开放 (Open) ， 对 修改 必须 封闭 (Closed) 9 


所 谓 “ 对 模块 扩展 必须 开放 ”， 是 指 模块 可 以 扩展 。 比 如 ， 如 采 数 据 结 
构 能 够 追加 新 的 字段 ， 或 是 能 够 退 加 新 的 功能 ， 束 可 以 称 模 块 十 开放 
的 。 某 一 模块 会 被 用 到 什么 地 方 ， 不 可 能 完全 预测 。 为 了 应 对 将 来 的 
需要 ， 对 于 扩展 必须 是 开放 的 。 


所 谓 “ 对 修改 必须 封闭 *"， 是 指 某 一 模块 被 别 的 模块 引用 时 的 要 求 。 必 
须 做 成 这 个 样子 : 即使 被 引用 一 方 的 实现 细节 发 生变 化 ， 也 不 会 带 来 


问题 。 


也 束 是 说 ， 即 使 系 一 模块 的 内 部 结构 改变 了 ， 对 外 接口 也 应 当 是 不 变 

的 。 如 果 对 外 接口 不 能 保持 不 变 ， 模 块 瓯 不 能 稳定 使 用 。 使 用 不 稳定 

| ， 别 的 模块 也 必须 时 常 跟着 改变 ， 软 件 的 复杂 性 和 维护 成 本 都 
i 

把 open-closed principle 译作 “开放 一 封闭 原则 >， 感觉 有 点 生硬 。 不 管 

一 次 又 一 次 重复 “开放 一 封闭 原则 ?都 显得 有 点 见长 ， 以 下 简称 

为 OCP。 


4.3.3 面向 对 象 的 情况 


既 要 开放 ， 又 要 封 叶 ， 这 看 起 来 互相 矛盾 。 但 是 面向 对 象 编程 语言 能 
够 很 彻 瓜 地 消除 这 个 矛盾 。 


请 看 图 4-23。 这 个 程序 里 有 3 种 箱子 (普通 的 箱子 、 上 了 锁 的 箱子 及 
扎 着 彩带 的 箱子 ) ， 要 根据 箱子 的 种 类 来 打开 箱子 。 


可 以 看 出 ， 这 是 一 个 很 漂亮 的 程序 ， 只 用 最 少 的 代码 殉 能 实现 想 做 的 
事 。 如 末 想 让 这 个 程序 对 应 新 种 类 的 箱子 ， 只 需要 生成 狐 的 箱子 对 

象 ， 为 这 个 箱子 定义 open 方法 束 行 了 。 所 以 ， 可 以 说 ， 这 个 程序 对 
于 修改 而 言 是 封闭 的 1 。 


1 这 句 话 应 该 是 ， 这 个 程序 对 于 扩展 而 言 是 开放 的 。 一 一 译 者 注 


面向 对 象 的 方法 (0CP) 
# 变量 box1、box2 和 box3 分 别 是 3 种 箱子 


def box1.open( ) 
puts(" 打 开 箱子 ") 
end 


def box2.open() 
puts(" 解 锁 ， 打 开 箱子 " ) 


end 


def box3. open() 
puts(" 解 开 彩带 ， 打 开 箱 子 ") 
end 


box1.open() # 显示 “打开 箱子 ” 
box2.open() # 显示 “解锁 ， 打 开 箱子 ” 
box3.open() # 显示 “ 解 开 彩带 ， 打 开 箱 子 ” 


图 4-23 3 种 打开 箱子 的 代码 ， 面 向 对 象 的 情况 ， 满 足 OCP 原则 
3 种 箱子 是 各 不 相同 的 对 象 ， 打 开 箱 子 只 要 调用 


box.open() 


束 行 了 ， 对 哪个 箱子 都 一 样 。 即 使 将 来 箱子 种 类 增加 了 ， 只 要 那个 对 
象 有 open 方法 ， 就 可 以 同样 处 理 。 结 果 ， 即 使 追加 了 箱子 ， 也 不 用 
更 改 现 有 代码 。 所 以 ， 这 个 程序 对 于 修改 而 言 是 封闭 的 。 


OCP 初 看 起 来 似乎 是 目 相 政 盾 的 ， 但 如 果 使 用 面 癌 对 象 语言 来 编写 程 
序 的话 ， 束 完全 能 够 达到 它 的 要 求 。 


4.3.4 非 面 向 对 象 的 情况 


那么 ， 让 我 们 来 看 看 用 非 面向 对 象 语言 编写 程序 来 进行 相同 处 理 的 情 
况 (参见 图 4-24) 。 在 这 个 程序 中 ， 将 来 箱子 种 类 增加 时 ， 需 要 更 改 
box_open 子 程序 。 这 次 与 箱子 关联 的 子 程序 只 有 box_open ， 如 果 
有 多 种 子 程序 ， 单 纯 考 虑 各 种 组 合 ， 就 会 有 以 下 这 么 多 。 


def box_open(box ) 


# box_type(box) 假定 由 子 程序 能 知道 箱子 种 类 

if box_type(box) == "plain" 
puts ("打开 箱 子 ") 

elsif box_ type(box) == "lock" 
puts ("解锁 ,打开 箱子 ") 

elsif box_type(box) == "ribbon" 
puts(" 解 开 彩 带 ， 打 开 箱子 ") 

else 
puts(" 不 知道 打开 方法 ") 


end 


end 


# 变量 box1, box2, box3 分 别 是 3 种 箱子 


box_open(box1) 显示 “打开 箱子 ” 
box_open (box2) 显示 “解锁 ， 打 开 箱 子 ” 
box_open (box3) 显示 “ 解 开 彩 带 ， 打 开 箱子 ” 


图 4-24 3 种 打开 箱子 的 代码 ， 非 面向 对 象 的 情况 ， 不 满足 OCP 原则 


子 程序 的 种 类 x 箱子 的 种 类 


箱子 种 类 增加 了 ， 组 合 的 种 类 也 会 急剧 增加 。 这 样 就 不 能 随便 增加 箱 
子 种 类 ， 对 于 扩展 而 言 ， 不 能 说 是 “开放 ”的 。 


反之 ， 根 据 箱子 种 类 的 不 同 而 调用 不 同 的 子 程序 ， 会 怎样 呢 ? (参见 
图 4-25) 这 样 增加 箱子 种 类 ， 对 各 种 箱子 定义 了 独立 的 子 程序 ， 因 此 
可 以 说 对 于 修改 而 言 古 封闭 的 。 但 是 ， 对 于 调用 子 程序 的 那 一 侧 而 
人 因此 ， 很 难说 它 对 于 扩展 而 言 是 开放 


def plain_box_open(box ) 
puts(" 打 开 箱子 ") 

end 

def locked_box ~—open( box) 
puts ("解锁 ,打开 箱子 ") 

end 

def ribbon_box ~—open(box) 

+ 


puts(" 解 开 彩带 ， 打 开 箱 子 ") 
end 


plain_box_open(box1) 
locked_box_open(box2) 
ribbon_box_open (box3) 


图 4-25 打开 3 种 箱子 的 代码 ， 别 的 非 面 向 对 象 型 代码 


使 用 面向 对 象 语言 ， 功 能 使 用 方 可 以 不 必 知道 功能 提供 方 各 种 类 的 详 
细 内 容 ， 而 只 需要 着 眼 于 它们 具有 什么 样 的 接口 就 可 以 。 功 能 扩展 以 
后 ， 由 于 多 态 ， 扩 展 后 的 功能 能 够 自动 使 用 ， 使 用 方 只 要 知道 接口 就 
行 了 。 功 能 提供 方 提供 了 新 功能 ， 或 是 内 部 有 了 更 改 ， 功 能 使 用 方 都 
不 用 全 任何 更 改 ”也 就 是 说 ， 从 翅 能 的 使用 方 来 用， 模块 对 于 修改 是 
封闭 的 。 


男 一 方面 ， 功 能 的 提供 方 只 要 生成 与 既 存 对 象 具 有 相同 接口 的 对 象 ， 
任何 时 候 都 能 追加 新 的 功能 。 也 就 是 说 ， 对 于 功能 扩展 而 言 是 开放 
的 。 这 种 情况 下 的 接口 ， 对 于 静态 语言 来 说 ， 就 是 相同 的 类 型 ， 而 对 
于 动态 语言 来 说 ， 就 是 有 没有 相同 的 方法 (换个 说 法 就 是 Duck 
Typing? ) 

2 所 谓 Duck Typing， 是 指 这 样 一 种 思考 方法 ， 如 果菜 个 东西 ， 其 行为 跟 网 子 一 样 ， 那 么 不 管 
它 是 不 是 网 子 ， 痢 将 它 看 作 鸭 子 。 这 种 想法 不 考虑 菜 种 对 象 所 属 的 类 ， 而 只 关心 它 具有 什么 


样 的 行为 (具有 哪些 方法 ) 。 


很 多 面向 对 象 语 言 ， 通 过 使 用 继承 ， 只 要 添加 一 个 于 类 ， 束 可 以 往 模 
块 (类 ) 里 随时 追加 功能 。 因 为 有 继承 而 允许 功能 的 退 加 (对 功能 扩 
展 而 言 是 开放 的 ) ， 因 为 有 多 态 而 维持 模块 接口 的 稳定 性 (对 修改 而 
言 是 封闭 的 ) ， 开 放 和 封闭 能 同时 实现 。 


从 实用 主义 的 观点 看 ， 面 向 对 象 的 精髓 就 在 于 对 OCP 的 实践 。 至 于 把 
对 象 看 做 物体 理解 起 来 比较 容易 ， 能 够 建立 现实 世界 的 模型 等 ， 这 些 
都 只 不 过 有 是 些 锦 上 天伦 的 东西 。 


“数据 与 画 数 没有 一 体 化 ， 所 以 不 是 面 问 对 象 ”,“ 封 猴 得 不 充分 ， 所 以 
不 是 面 癌 对 象 " 等 ， 世 上 有 不 少 人 作出 类 似 这 样 的 判 师 。 道 理 上 也 许 的 
确 是 这 样 ， 但 面 回 对 象 无 非 是 编程 的 一 种 工具 ， 是 不 是 理论 上 正确 的 
面向 对 象 不 重要 ， 是 否 符合 OCP， 生 产 性 高 不 高 ， 维 护 性 好 不 好 ， 能 
否 适 应 将 来 的 更 改 ， 等 等 ， 这 些 才 是 重点 。 


4.3.5” ”OCP 与 Template Method 模 式 


虽说 使 用 面向 对 象 语言 的 功能 ， 可 以 实现 OCP， 但 也 只 是 说 有 这 种 可 
能 性 ， 并 不 是 说 什么 时 候 都 能 实现 。 当 然 ， 虽然 使 用 了 面向 对 象 语 
言 ， 却 做 成 了 一 个 糟糕 的 设计 ， 这 种 情况 也 是 屡见不鲜 的 。 

于 是 设计 模式 登场 了 。 正 如 上 节 所 示 ， 设 计 模 式 束 是 给 做 得 好 的 设计 
起 个 名 字 ， 并 将 它们 进行 分 类 。 分 类 中 的 很 多 设计 模式 之 所 以 优秀 ， 
是 因为 能 够 经 得 起 OCP 所 要 求 的 变化 。 


现在 实际 看 看 儿 种 设计 模式 ， 考 察 一 下 它们 都 是 怎样 满足 OCP 


上 市 介绍 的 Template Method 模式 ， 是 满足 OCP 的 基本 手段 。 之 所 以 

这 么 说 ， 是 因为 其 他 的 设计 模式 都 是 利用 多 个 类 的 关联 来 实现 的 ， 而 

J Method 模式 则 仅仅 使 用 了 继承 ， 基 本 上 无 非 就 是 实现 一 个 抽 
MI 已 S 


上 节 利 用 Ruby 标准 模块 的 Enumerable 和 Comparable 解释 了 
Template Method 模式 ， 这 次 从 既 存 类 中 提取 抽象 类 (Ruby 中 是 模 
块 ) 的 观点 来 考察 一 下 。 


表 4-4 列举 了 Ruby 标准 类 I0 的 方法 中 用 于 输出 的 方法 。 
表 4-4 I0 类 与 输出 相关 的 方法 


io<<obj | 输出 对 象 


print 输出 参数 


带 格式 输出 
putc 俞 出 一 个 字符 
puts 俞 出 一 行 (换行 ) 


write 俞 出 字符 串 


这 些 方 法 在 与 I0 类 有 互 换 性 的 StringI0 类 及 ARGF 对 象 中 也 有 实 
现 。 但 是 ， 仔 细 想 一 想 ， 不 管 哪 种 方法 都 进行 类 似 的 处 理 ， 所 以 可 以 
用 Template Method 模式 归纳 一 下 。 


例如 ， 选 择 write 作为 基本 处 理 ， 其 他 方法 可 以 用 表 4-5 所 示 的 处 理 
来 实现 。 将 这 些 处 理 作为 一 个 模块 分 割 开 以 后 (参见 图 4-26) ， 将 命 
令 行 参数 指定 的 多 个 文件 结合 成 一 个 虚拟 文件 的 ARGF， 在 对 字符 串 
进行 输入 输出 的 StringI0 类 中 ， 就 没有 必要 再 重复 这 些 定义 。 


表 4-5 用 write 方法 将 表 4-4 中 的 方法 归纳 起 来 
Rie 


将 各 参数 变 成 字符 串 传递 给 
第 一 个 参数 将 参数 格式 化 以 后 传 


将 代表 字符 编码 的 整数 变 成 字符 囊 传递 给 


write 


把 参数 字符 串 和 换行 符 传递 给 


module Writable 


def <<(obj) 
self.write(obj.to_s) 

end 

def print(*args) 
args.each do |obj| 


self .write(obj.to_s) 
end 
end 
def printf(fmt, *args) 
self.write(sprintf(fmt, *args)) 
end 
def putc(c) 
self .write(sprintf("%c",c)) 
end 
def puts(s) 
self .write("%s\n",s) 
end 


图 4-26 Ruby 中 Writable 模块 的 定义 


也 就 是 说 ， 有 了 Writable 模块 ，I0 类 以 外 的 类 中 ， 只 需 定义 适合 
各 目 实 现 方式 的 write 方法 ， 然 后 将 Writable 模块 包含 进来 就 可 
以 了 。 


有 了 Writable 模块 ， 处 理 内 容 相似 的 方法 殉 不 需要 分 别 定义 ， 而 
且 ， 在 以 后 开发 需要 具备 这 种 输出 方法 的 类 时 ， 还 可 以 再 利用 。 


现在 的 Ruby 还 没有 这 样 的 Writable 模块 ， 实 际 做 一 做 ， 觉 得 特别 
好 。 也 许 在 将 来 的 版 本 中 会 导入 这 一 模块 。 


同样 在 处 理 中 重复 编程 、 代 码 复制 ， 都 是 违反 软件 开发 中 重要 的 DRY 
原则 的 。 从 OCP 的 观点 来 看 ， 重 复 也 是 非 第 恶劣 的 。 同 样 的 代码 反复 
出 现 ， 如 果 要 对 代码 进行 某 种 修改 ， 那 么 全 部 的 代码 部 必须 修改 。 不 
能 算 作 “对 于 修改 而 言 是 封闭 的 ”。 


数据 结构 的 扩展 也 有 影响 复制 代码 全 体 的 危险 性 ， 所 以 也 不 能 算 “ 对 于 
展 而 言 是 开放 的 ”。OCP 与 DRY， 这 两 个 原则 实际 上 具有 相同 的 意 


4.3.6 ”Observer 模式 


Template Method 模式 说 到 弃 无 非 是 继承 ， 现 在 调查 一 下 关联 a 到 多 个 类 
的 设计 模式 与 OCP 的 关系 吧 。 作 为 最 简单 的 例子 ， 还 以 上 节 讲 解 过 的 


Observer 模式 为 例 。 


模式 中 ， 有 降低 多 个 对 象 间 依赖 性 的 机 制 。 请 看 图 4-27。 那 
上 节 最 后 所 用 的 程序 示例 。 由 每 秒 产生 一 次 事件 的 被 观察 者 (更 新 
通知 者 ) 和 显示 当前 时 间 的 观察 者 所 构成 的 位 单 时 钟 程序 。 


require "observer" 


# 更 新 通知 者 (Observable) 
# 每 秒 发 送 1 次 更 新 通知 的 类 
class Tick 


include Observable 
def tick 
loop do 
now = Time.now 
changed 
notify_observers(now.hour, now.min, now.sec) 
sleep 1.0 - Time.now.used / 1000000.0 


# 观察 者 (0bserver) 
# 依照 通知 ， 表 示 现 在 时 刻 的 类 (文字 版 ) 


class TextClock 


def update(h, m, s) 
printf "\e[8D%02d:%02d:%02d", h, m, s 
STDOUT. flush 
end 
end 


tick = Tick.new 
tick.add observer(TextClock.new) 
tick.tick 


图 4-27 ”Observer 模式 的 程序 示例 ， 显 示 字 符 式 时 钟 


程序 的 细节 上 节 已 经 讲解 过 了 ， 就 省 略 不 讲 了 ， 这 里 重要 的 是 末尾 3 
行 。 更 新 通知 者 与 观察 者 的 关系 仅 用 add_observer 一 行 来 定义 ， 
其 他 部 分 全 部 都 是 互相 独立 的 。 


所 以 ， 即 使 以 后 要 求 变 化 了 ， 需 要 更 改 时 钟 的 外 观 时 ， 只 需要 生成 新 
的 观察 者 类 来 代替 TextCclock ， 并 用 add_observer 登录 就 行 

了 。 很 简单 地 就 能 进行 功能 的 追加 和 更 改 ， 可 以 认为 这 个 设计 模式 对 
于 更 改 是 开放 的 。 

另外 ， 更 狐 通知 者 与 观察 者 之 间 的 消息 只 有 通过 add_observer 而 
建立 的 唯一 关系 ， 不 必 担 心 有 别 的 恶劣 影响 。 这 意味 着 对 于 修改 而 言 
是 封闭 的 。 

由 此 可 知 ，Observer 模式 是 满足 OCP 的 。 


不 仅 限 于 Observer 模式 ， 很 多 被 认为 优秀 的 设计 模式 ， 都 可 以 基于 
OCP 来 说 明 它 们 为 什么 优秀 。 


那么 ， 不 使 用 Observer 模式 的 情形 会 怎么 样 呢 ? 编写 一 个 不 用 
Observer 模式 的 程序 ， 实 现 与 图 4-26 相同 的 处 理 吧 (参见 图 4-28) 。 


class TextClock 


def start 
loop do 
now = Time.now 
printf "\e[8D%02d:%02d:%02d", now.hour, now.min, now.sec 
STDOUT. flush 


sleep 1.0 - Time.now.used / 1000000.0 
end 
end 
end 


TextClock.new.start 


图 4-28 不 使 用 设计 模式 的 文字 时 钟 的 代码 ， 乍 一 看 是 清晰 而 良好 的 代码 


看 起 来 比 图 4-27 要 简短 得 多 。 但 能 否 经 得 住 将 来 的 更 改 呢 ? TextClock 
类 专门 设计 为 用 文字 显示 时 刻 。Observer 模式 版 本 中 更 新 通知 者 所 进 
行 的 处 理 ， 也 就 是 计 秒 数 处 理 和 观察 者 的 时 刻 显示 处 理 (在 图 4-27 
中 ) 相互 连接 起 来 了 。 所 以 ，TextClock 处 理 的 一 部 分 不 能 被 其 他 应 用 
程序 所 沿用 。 估 计 只 能 将 TextClock 复制 ， 然 后 进行 改造 了 。 复 制 ， 
也 就 是 将 进行 相同 处 理 的 代码 分 散 到 几 处 ， 是 违反 DRY 原则 的 。 


但 是 ， 如 采 事 先知 道 文字 时 钟 的 规格 将 来 也 会 一 成 不 变 ， 几 4-28 的 程 
序 还 是 很 称心 的 。 因 为 它 简 短 而 直接 ， 执 行 效率 也 高 。 


归根 结 克 ，DRY 也 好 ，OCP 也 好 ， 都 不 过 是 原则 ， 根 据 具体 情况 ， 还 
征 要 做 适当 的 选择 。 如 有 果 代 码 没 有 再 利用 的 打算 ， 也 没有 将 来 要 扩展 
其 功能 的 打算 的 话 ， 也 就 没有 必要 生 搬 硬 套 设计 模式 。 使 用 设计 模式 
时 有 必要 先 做 判断 。 


4.3.7 ”使 用 Strategy 模 式 


介绍 一 个 新 的 设计 模式 。 根 据 《 设 计 模式 》，Strategy (策略 ) 模式 是 
这 样 解释 的 : “定义 算法 的 集合 ， 将 各 算法 封闭， 使 它们 能 够 区 换 。 利 
用 Strategy 模式 ， 算 法 和 利用 这 些 算 法 的 客户 程序 可 以 分 别 独立 进行 
修改 而 不 互相 影响 。” 


Strategy 模式 ， 融 是 将 容易 变化 的 处 理 归 纳 为 独立 的 对 象 ， 然 后 使 它 
们 能 够 互相 交换 。 使 用 方法 与 将 容易 变化 的 处 理 交 给 子 类 的 Template 
Method 模式 相 类 似 。 两 个 模式 最 大 的 区 别 在 于 ，Strategy 模式 是 独立 
的 对 象 ， 能 够 动态 交换 处 理 逻 辑 (参见 图 4-29) 


Template Method 模式 Strategy 模式 


| Context 


-本末 | 
超 类 | | Context API() 
method1() 0 
method2() 
primitivel() 具体 处 理 交 给 Strategy 对 


Strateey 
— Strateegy | 


| 象 ， 可 以 动态 交换 
了 类 | 
primitivel() | 
在 子 类 中 追加 具体 处 理 。 


Primitivel 是 抽象 方法 
图 4-29 Template 模式 与 Strategy 模式 


静态 语言 中 ，Strategy 对 象 需要 一 个 共同 的 父 类 ， 实 现 这 个 父 类 往往 
要 用 到 Template Method 模式 。 


通过 Ruby 库 中 使 用 Strategy 模式 的 例子 来 介绍 cgi/session 库 。 
cgi/session 库 是 CGI 程序 中 ， 识 别 某 一 特定 用 户 的 一 连 串 操作 
(session) 的 库 。 


使 用 cgi/session 库 ，CGI 里 有 必要 保存 session 固有 的 数据 ， 
但 保存 方法 因应 用 程序 的 不 同 而 有 所 不 同 。 一 个 应 用 程序 中 可 能 是 往 
临时 目录 里 放 一 个 文件 ， 男 一 个 应 用 程序 中 或 许 是 将 session 数据 
放 在 数据 库 里 。 想 使 用 的 数据 库 管 理 器 也 是 千差万别 。 


像 这 样 的 情形 ， 不 知道 会 有 什么 要 求 发 生 ， 库 对 于 变化 应 该 有 开放 
性 。cgi/session 库 使 用 Strategy 模式 ， 对 应 预想 中 的 未 来 变化 。 


4-30 是 cgi/session 的 使 用 示例 。 其 中 重要 的 是 第 6 行 
( 即 'database_manager' 那 一 行 ) 。 


'Cgi/session' 
'cgi/session/pstore' # 提供 CGI::Session::PStore 


= CGI::Session.new(cgi, 
'database_manager' => 
CGI::Session::PStore，# 使 用 PStore， 
"SeSsSsion_expires' => Time.now + 30 * 60) 


# 30 分 钟 超时 

If cgi.has_ key?('user_name') and cgi['user_ name'] != "" 
session['user_name'] = cgi['user_name'].to_s 

elsif !session['user_name'] 
session['user_name'] = "guest" 

end 

session.close 


图 4-30 cgi/session 库 的 使 用 例子 


CGI: :Session 类 在 生成 对 象 时 ， 用 哈 希 表 指 定 选 项 ， 可 以 指定 
database_manager 为 保存 实际 数据 的 类 数据库 管理 器 ) 。 这 个 
例子 中 ， 指 定 了 利用 Ruby 标准 版 附带 的 简易 面向 对 象 数据 库 PStore 
的 数据 库 管 理 器 CGI: :Session: :PStore。 


除 此 之 外 ，Ruby 标准 版 还 提供 了 将 session 数据 保存 在 普通 文件 的 
CGI: :Session: :FileStore 类 ， 以 及 保存 在 内 存 的 

CGI: :Session: :MemoryStore 类 3 等 。Ruby 标准 版 中 没有 附带 将 
session 信息 保存 在 关系 数据 库 (RDBMS) 的 数据 库 管理 器 类 ， 但 
中 ， 记 录 有 利用 MySQL、PostgreSQL 以 及 dRuby 进行 网 络 
通信 的 类 。 


CD 


因为 保存 在 内 存 中 ， 所 以 在 使 用 多 个 进程 的 Apache 中 不 能 使 用 。 


4RAA (Ruby Application Archive) 是 一 个 索引 (http://raa.ruby-lang.org/ ) ， 记 录 了 利用 
Ruby 实现 的 库 及 应 用 程序 。 利 用 MySQL 的 ， 可 以 参照 
http://moko.cry.jp:3232/~keijilinux/pub/files/mysql-session-0.16.tar.gz 。 利用 PostgreSQL 的 ， 可 
以 参照 http://www.angelfire.com/vi/oremacs/ruby_page.html 。 利 用 dRuby 的 ， 可 以 参照 


ftp://ftp.tietew.jp/pub/ruby/drbsession-0.1.tar.gz ° 


cgi/session 对 象 在 初始 化 处 理 中 生成 数据 库 管理 器 类 的 对 象 ， 保 
存在 类 实例 变量 @dbman 中 。 在 需要 访问 session 数据 的 时 候 ， 调 
用 数据 库 管 理 器 的 方法 进行 实际 的 处 理 (参见 表 4-6) 。 


表 4-6 ”数据库 管理 器 的 方法 


re | Seenion 


数据 库 管 理 器 的 restore 方法 返回 表示 实际 数据 库 的 对 象 ， 

CGI: :Session 对 象 使 用 与 该 数据 库 对 象 数 组 相同 的 接口 ([] 方法 
和 []= 方 法) 来 访问 。update 方法 将 数据 库 对 象 的 状态 写 到 实际 文 
件 里 。Ruby 这 样 的 动态 语言 ， 只 要 有 了 表 4-6 所 示 的 这 些 方法 ， 不 管 
什么 都 能 作为 数据 库 管理 器 类 来 使 用 。 


4.3.8 ”Strategy 模 式 与 OCP 
最 后 来 验证 一 下 Strategy 模式 是 如 何 满足 OCP 的 。 


首先 看 是 不 是 开放 的 。 使 用 Strategy 模式 时 ， 只 要 更 换 封 装 了 算法 的 
Strategy 对 象 ， 就 可 以 追加 及 修改 功能 。cgi/session 的 情形 ， 只 
更 改 了 选项 所 指定 的 数据 库 管 理 吉 类， 就 能 够 改变 session 数据 的 
保存 方法 。 所 以 ， 可 以 说 Strategy 模式 对 扩展 而 言 是 开放 的 。 


另 一 方面 ， 即 使 扩展 或 修改 了 功能 ， 利 用 Strategy 模式 的 一 方 也 没有 
必要 改变 。cgi/session 的 情形 ， 即 使 开发 了 新 的 保存 session 


数据 的 方法 ， 既 有 的 代码 也 没有 必要 变更 ， 而 且 利 用 新 的 数据 库 管 理 
句 时 ， 除 了 CGI: :Session 对 象 的 初始 化 选项 以 外 ， 别 的 代码 也 没 
有 更 改 的 必要 。 所 以 ，Strategy 模式 对 于 更 改 而 言 是 封闭 的 。 

因此 ，Strategy 模式 完全 满足 OCP。 

由 于 篇 幅 的 关系 ， 设 计 模 式 中 只 验证 了 很 小 一 部 分 ， 世 上 很 多 设计 模 
式 ， 为 了 能 应 对 将 来 可 能 的 修改 ， 都 是 按照 OCP 的 要 求 来 设计 的 。 


米 米 米 


本 节 从 OCP 的 观点 ， 重 新 审视 了 一 下 设计 模式 。 由 继承 实现 的 
OCP， 通 过 使 用 设计 模式 而 变 得 更 强 有 力 。 我 想 大 家 可 以 认识 到 设计 
模式 是 应 变 能 力 很 强 的 工具 ， 得 到 了 广泛 应 用 。 


实际 上 ，OCP 与 设计 模式 相 结 合 ， 并 不 是 我 的 站 创 。 据 我 所 知 ， 日 本 
国内 将 这 两 者 结合 起 来 讲解 的 ， 还 有 石井 胜 先生 。 石 井 先 生 的 讲解 详 
见 
http:/www.objectclub.jp/community/memorial/homepage3.nifty.com/masar 
l/article/dp-ocp-2.html 。 


词汇 与 通用 语言 的 重要 性 


天 于 设计 模式 的 书籍 刚 出 现 的 时 候 ， 我 最 初 的 印象 是 “ 硅 夺 其 谈 ， 其 
实 都 是 些 理所当然 的 内 容 ”。 《设计 模式 》 一 书 所 列举 的 23 种 模 
式 ， 很 多 都 是 经 常 使 用 ， 并 不 怎么 罕见 的 模式 。 而 且 ， 还 含有 很 多 
在 C++ 及 Java 那样 的 静态 语言 中 虽然 有 效 ， 但 在 Smalltalk 及 Ruby 
中 却 并 没有 多 大 意义 的 模式 。 


但 过 了 一 阵子 我 有 了 更 深刻 的 认识 。 设 计 模式 的 本 质 ， 并 不 是 介绍 
至 今 没 有 用 过 的 新 模式 ， 而 十 通 过 给 屡屡 使 用 过 的 模式 起 一 个 合适 
的 名 字 ， 从 而 提供 了 设计 时 的 词汇 。 

人 使 用 语言 进行 思考 。 没 有 语言 的 系统 也 就 无 法 思考 ， 不 使 用 语 


言 ， 也 不 能 与 其 他 人 进行 交流 。 人 类 的 生存 与 人 际 关系 都 古 跟 语 言 
密切 相关 的 。 


旧 约 全 书 里 记载 了 巴比伦 塔 的 故事 ， 摘 写 了 人 与 人 之 间 因 为 语言 
J 而 中 止 了 塔 的 建设 ， 人 们 都 纷纷 散 去 的 场面 。 语 言 的 重要 
性 可 见 一 斑 。 


据说 住 在 阿拉 斯 加 与 加 拿 大 的 因 纽 特 人 的 语言 中 ， 表 现 雪 与 冰 的 词 
汇 有 80 种 。 居 然 还 需要 把 这 么 微妙 的 差异 加 以 区 别 。 我 们 也 有 很 多 
表现 雨 的 词汇 ， 如 毛毛 雨 、 初 夏 雨 、 秋 雨 、 阵 雨 等 。 


设计 模式 也 一 样 。 软 件 开 发 中 ,虽然 也 存在 能 用 于 各 种 局 面 的 类 或 
专业 用 语 ， 但 如 有 果 不 给 它们 起 一 个 合适 的 名 字 ， 很 多 开发 人 员 都 不 
可 能 意识 到 它们 的 存在 。 设 计 模 式 就 是 将 这 样 的 词汇 集中 起 来 ， 并 
进行 分 类 的 一 种 莹 试 。 所 以 ， 书 上 介绍 的 23 种 模式 ， 不 过 是 一 个 开 
始 。 最 终 还 应 有 一 个 能 收 系 更 多 模式 的 “设计 模式 目 隶 ”。 


很 遗憾 ， 这 种 目录 还 没有 出 现 。 也 许 人 们 连 现 有 的 23 种 模式 都 没 能 
够 灵活 运用 ， 还 没 进化 到 需要 追求 更 多 模式 的 阶段 。 


第 5 章 ”Ajax 


5.1 Ajax 和 JavaScript (前 篇 ) 


很 多 网 络 应 用 程序 ， 比 如 Google Maps， 不 用 进行 网 页 更 新 束 可 以 将 
处 理 进展 下 去 。 


如 果 要 进行 网 页 更 新 ， 束 要 对 画面 进行 描绘 处 理 ， 应 用 程序 的 反应 会 
变 得 迟缓 。 男 一 方面 ， 使 用 Web 2.01 技术 的 应 用 程序 ， 因 为 不 需要 进 
行 画 面 更 新 ， 能 顺利 地 将 画面 处 理 下 去 。 像 上 述 这 一 类 实现 Web 应 用 
的 技术 ， 称 为 Ajax Asynchronous JavaScript and XML)， 含 义 是 “异步 
JavaScript 及 XML”。 本 章 讨论 Ajax 及 其 相关 技术 。 


1 Web 2.0 不 存在 确切 的 定义 ， 一 般 是 指 比 Web 技术 更 加 重视 扩大 对 使 用 者 提供 的 服务 。 


实际 上 ，Ajax 不 算 一 个 新 技术 ， 只 是 既 存 技术 的 组 合 。Ajax 这 个 名 字 
是 在 2005 年 2 月 由 美国 Adaptive Path 公司 的 Jesse James Garrett 命名 


的 。 现 在 的 web 应 用 大 多 数 都 使 用 了 Ajax 技术 ， 与 这 个 名 字 有 很 大 
天 系 。 名 字 是 非常 重要 的 ， 顺 便 提 一 句 ， 美 国有 一 种 叫 AJAX 的 厨房 
洗 许 剂 ， 欧 洲 有 一 家 名 为 AJAX 的 足球 俱乐部 。 


5.1.1 通信 及 异步 页 面 更 新 


Ajax 的 最 大 特点 是 进行 异步 操作 。 异 步 意味 着 ，Web 浏览 器 的 通信 和 
页 面 更 新 是 互相 独立 的 。 


以 前 的 Web 应 用 程序 ， 每 按 下 一 个 按钮 吏 开 始 显示 下 一 个 页 面 ， 在 页 
面 完整 择 现 之 前 ， 用 户 只 能 等 待 ， 无 法 进行 其 他 操作 。 


相反 ， 使 用 了 Ajax 技术 的 页 面 是 在 后 台 和 HTTP 服务 器 进行 通信 。 设 
计 优 恨 的 Web 应 用 程序 ， 在 客户 和 服务 器 通信 的 过 程 中 也 可 以 让 用 户 
进行 操作 ， 而 不 需要 等 待 。Ajax 的 最 大 优点 就 是 改善 了 应 用 程序 的 操 


你 性 


以 前 的 Web 应 用 程序 和 使 用 了 Ajax 的 程序 的 区 别 ， 我 们 用 图 来 说 
明 。 对 于 以 前 的 应 用 程序 ，Web 浏览 上 和 HTTP 服务 器 十 按 如 图 5-1 
所 示 的 方式 进行 通信 的。 


Web 浏览 器 


请 求 
响应 
请 求 
啊 应 


页 面 显示 


图 5-1 ”以 前 的 Web 应 用 程序 的 操作 


每 当 用 户 进 行 操作 之 后 ， 需 要 更 新 页 面 ， 在 得 到 服务 需 的 啊 应 之 后 ， 
下 一 个 页 面 才 能 显示 出 来 。 在 这 之 前 ， 用 户 只 能 等 待 。 


Ajax 应 用 程序 则 是 按 图 5-2 所 示 的 方式 进行 操作 的 。 


服务 器 端的 处 理 
| 响应 | 


由 DHTML 进 
行 部 分 更 新 


图 5-2 ”Ajax 应 用 程序 的 操作 


Ajax 技术 中 ， 对 于 用 户 进 行 的 操作 ， 基 本 是 由 JavaScript 在 Web 浏 宽 
需 中 进行 啊 应 。 仅 在 数据 必须 从 服务 硕 获 取 的 情况 下 ， 才 在 后 台 进 行 
异步 通信 。 在 通信 过 程 中 ， 用 户 也 可 以 继 多 闫 对 Web 浏览 右 进 行 操作 。 

和 服务 器 通信 得 到 的 结果 由 DHTML (后 面 我 们 将 进行 介绍 ) 对 当前 
的 页 面 进行 部 分 更 新 而 显示 出 来 。 


比如 Google Maps， 在 对 地 图 进行 拖拉 操作 时 ， 感 觉 像 是 在 操作 一 个 

本 地 机 上 的 巨大 的 地 图 文件 ， 滚 动 得 非常 顺利 (参见 图 5-3) ,实际 

上 ， 这 是 使 用 了 Ajax 技术 从 服务 器 异步 获取 分 割 得 很 小 的 地 图 图 像 。 
如 果 在 速度 较 慢 的 网 络 上 使 用 Google Maps， 在 通信 结束 之 前 ， 还 没 

来 得 及 获取 地 图 图 像 数 据 时 ， 地 图 的 一 部 分 会 显示 空白 。 


网 页 图 片 视频 地 图 新 闻 音乐 购物 更 多 天 新 | | 帮助 
Google 地 图 搜索 地 图 


全 打印 加 电子 邮件 8s 分 京 流 接 
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图 5-3” Google Maps 的 画面 


异步 通信 技术 不 仅仅 是 使 用 在 Web 应 用 程序 上 ， 对 于 改善 应 用 程序 的 
反应 也 非常 有 效 。 异 步 通信 是 将 处 理 细 分 成 多 个 处 理 来 交替 执行 。 处 
理 时 间 合计 起 来 可 能 会 更 长 。 但 和 是， 在 通信 结束 之 前 用 户 不 需要 等 
待 ， 所 以 操作 的 不 愉快 感 会 少 很 多 。 一 般 情 况 下 ， 相 对 于 减少 总 处 理 
时 间 来 说 ， 减 少 最 大 等 行 时 间 更 重要 。 


5.1.2 ”技术 要 素 之 一 : JavaScript 


接 下 来 ， 我 们 依次 讨论 文 撑 Ajax 的 3 个 主要 技术 : JavaScript、XML 
及 DHTML 。 


JavaScript 是 最 近 几 乎 所 有 的 Web 浏 贤 右 处 理 系统 都 文 持 的 一 种 编程 
语言 。 因 此 ， 有 时 候 它 也 被 称 为 "世界 上 最 普及 的 编程 语言 ”。 


JavaScript 可 以 简单 地 磐 入 到 表示 网 页 的 HIML 中 去 。 图 5-4 显示 了 
一 个 葡 入 到 HTML 中 的 JavaScript 的 简单 例子 。 如 果 将 图 5-4 中 的 
HTML 文件 读 入 到 Web 浏 贤 右 中 ， 会 显示 出 * 请 点 击 ” 的 字符 串 。 用 中 
标点 击 此 字符 串 会 弹出 一 个 信息 窗口 ， 显 示 “ 已 经 点 击 了 哦 ”。 


<html><head><title>JavaScript 举例 </title> 
<script type="text/javascript"> 

<1-- 

function alertonClick() { 


alert(" 已 经 点 击 了 哦 " ) ， 


} 

// --> 
</script></head> 
<body> 


<a onclick="alertonCclick()"> 请 点 击 </a> 
</body> 
</html> 


图 5-4 舱 入 到 HTML 中 的 JavaScript 示例 


像 上 述 这 样 ， 利 用 JavaScript 可 以 做 出 完全 不 用 和 服务 器 进行 通信 的 
网 页 。 如 采 将 JavaScript 技术 发 挥 到 极致 的 话 ， 仅 仅 使 用 Web 浏览 器 
瓯 能 实现 令 人 吃惊 的 操作 。 

JavaScript 本 来 是 一 种 用 来 控制 Web 浏 贤 絮 的 脚本 语言 ， 是 由 美国 
Netscape 通信 公司 设计 的 ， 设 计 者 是 Brendan Eich。 一 开始 它 叫 做 
LiveScript， 因 为 当时 Java 技术 变 得 越 来 越 流 行 ， 于 是 改名 为 


JavaScript* ° 


2 JavaScript 这 个 名 字 不 是 随便 起 的 ， 是 和 美国 Sun 公司 进行 交涉 ， 解 决 了 商标 上 的 问题 之 后 
才 得 以 使 用 的 。 


实际 上 ，JavaScript 和 Java 是 完全 不 同 的 语言 。 除 了 名 字 和 语法 有 相 
似 之 处 ， 语句 都 是 由 大 括 弧 {} 括 起 来 之 外 ， 再 没有 其 他 关联 性 。 面 问 
对 和 象 编程 方面 也 完全 不 同 。 


另外 ，JavaScript 也 被 称 为 “最 易 被 误解 的 编程 语言 ”。 比 如 它 曾 被 认 
为 是 骨 入 式 应 用 程序 语言 中 简易 的 编程 语言 之 一 。 因为 它 的 语法 和 规 
则 比较 简单 ， 所 以 更 易 被 误解 。 


3 参考 JSON 的 开发 者 Douglas Crockford 的 文章 JavaScript the World's Most Misunderstood 


Programming Language (http://javascript.crockford.com/javascript.html ， 


http:/d.hatena.ne.jp/brazil/20050829/1125321936 ) 。 


实际 上 ， 像 我 这 样 的 “编程 语言 迷 ”， 对 JavaScript 有 更 深 的 兴趣 ， 使 
人 。 对 于 JavaScript 的 详细 讨论 会 放 在 后 面 的 章 和 继 
续 进 行 。 


5.1.3 ”技术 要 素 之 二 : XML 


也 许 没 有 必要 对 XML (eXtensible Markup Language) 重新 进行 说 明 。 
ee SGML、HTML 类 似 的 ， 使 用 标签 (tag) 对 数据 进行 标识 说 明 
JJ 一 站 语言 


现在 ，XML 已 经 成 为 了 在 数据 表示 、 配 置 各 种 文件 及 其 他 多 种 场合 下 
广泛 使 用 的 一 种 格式 。 


Ajax 的 名 字 中 部 分 包含 了 XML ， 有 是 因为 当初 大 部 分 使 用 Ajax 技术 的 
应 用 程序 都 使 用 了 XML 数据 ， 还 有 ， 用 JavaScript 进行 异步 通信 的 对 
象 的 名 字 是 XMLHttpRequest 。 


可 是 ， 不 使 用 XML 的 XMLHttpRequest 的 通信 也 是 存在 的 。 使 用 
Ajax 技术 的 Web 应 用 进行 通信 的 数据 格式 也 是 多 种 多 样 的 ， 比 如 有 普 
通 文本 格式 和 下 面 将 要 介绍 的 YAML， 以 及 JSON 等 。 


5.1.4 XML 以 外 的 数据 表现 形式 


最 近 ，YAML 和 JSON 作为 数据 表现 形式 受到 了 人 们 的 关注 。 我 们 通 
过 和 XML 作对 比 来 进行 说 明 。 


从 YAML 的 全 称 (YAML Aint Markup Language) 可 以 看 出 它 不 是 标 
识 语言 14。XML 是 可 以 作为 数据 表现 形式 的 标识 语言 ， 而 YAML 只 是 
人 "YAML 的 目的 仅仅 束 是 表示 数据 ， 和 XML 相 比 有 
以 下 特点 : 


4 软件 界 经 常 使 用 在 缩写 中 包含 自身 的 回归 名 称 ， 有 代表 性 的 例子 有 GNU (GNU's Not 
Unix) 和 PHP (PHP:Hypertext Processor) 。 


。 记 壕 简洁 ; 
。 容易 理解 ; 
。 专注 于 表示 数据 ， 不 用 费心 考虑 给 标签 起 名 字 。 


通过 实际 的 例子 我 们 束 能 感受 到 上 壕 特征 。 图 5-5 是 有 name、job、 
kids 3 个 项 目的 表 (Ruby 中 称 哈 硕 表 ) ，kids 的 内 容 是 4 个 元 素 的 列 


表 (Ruby 称 数组 ) 。 用 Ruby 的 数据 结构 表示 如 图 5-6 所 示 。 


: Matsumoto 
Programmer 


图 5-5 YAML 数据 示例 


"name"=>"Matsumoto", 
"kids"=>["Girl", "Girl", "Boy", "Girl"], 
"job"=>"Programmer" 


图 5-6 ”YAML 数据 的 Ruby 表示 


my ee YAML 对 应 库 ， 可 以 直接 读 写 YAML 数据 (参见 
Be 


yaml = "..." # 图 5-5 的 YAML 数 


p YAML.1load(yaml) 


图 5-7 用 Ruby 读 取 YAML 数据 的 代码 


和 YAML 相提并论 的 另 一 种 数据 表现 形式 是 JSON (JavaScript Object 
Notation) ， 意 思 是 JavaScript 对 象 表示 法 。 发 首 为 和 J-song”。 顾 名 思 
义 ，JSON 是 直接 把 JavaScript 表示 对 象 的 程序 拿 来 记述 数据 了 。 
JSON 是 合法 的 JavaScript 程序 ， 作 为 JavaScript 实现 可 以 生成 对 象 ” 


oO 


5 从 没有 信赖 的 服务 器 传 来 的 JSON 数据 ， 在 执行 之 前 需要 对 数据 内 容 进行 检查 。 否 则 可 能 引 


起 安全 问题 。 


5-5 中 的 YAML 数据 用 JSON 表示 的 话 ， 如 图 5-8 所 示 。 


"name": "Matsumoto", 
"kids": ["Girl", "Girl", "Boy", "Girl"], 


"job": "Programmer" 


} 


图 5-8 JSON 数据 示例 
JSON 采用 的 对 象 表示 法 基本 和 Python 语法 相同 ， 和 YAML 也 有 很 多 
共通 之 处 。 YAML 人 允许 将 表 的 项 目 名 用 引号 括 起 来 。 如 果 把 JSON 的 
数据 传 给 YAML 解析 器 ， 一 般 都 能 正确 解释 。 


JSON 可 以 表现 下 面 6 种 数据 类 型 : 数值 (整数 及 浮 点 小 数 ) 、 字 符 
串 、 布 尔 值 〈 真 、 假 ) 、 数 组 、 对 象 〈 键 和 值 的 表 ) 和 null 。 


YAML 通过 扩展 可 以 表示 各 种 形式 的 数据 。 相 比较 ，JSON 就 显得 太 
简单 了 。 但 实际 上 ， 有 这 6 种 数据 类 型 应 该 束 足 够 了 。 


5.1.5 ”技术 要 素 之 三 : DHTML 
DHTML ， 动 态 HTML， 上 顾名思义 ， 可 以 动态 地 对 HTML 进行 引用 、 
修改 和 更 新 。 更 具体 地 说 ， 它 是 利用 装载 在 网 页 中 的 JavaScript， 使 用 
DOM (文档 对 象 模型 ) 对 网 页 数据 进行 操作 。 使 用 DOM 可 以 进行 下 
述 处 理 : 

。 取得 页 面 中 特定 标签 中 的 数据 ; 

。 修改 标签 的 数据 (文字 、 属 性 等 ) ; 

。 在 页 面 中 添加 标签 ; 

。 设 定 事件 处 理 程序 。 
5.1.6 ” ”JavaScript 技术 基础 


在 本 章 后 半 部 分 会 针对 Ajax 的 核心 技术 JavaScript 进行 详细 讲解 。 


JavaScript 是 以 对 象 为 基础 的 语言 。 也 吏 是 说 ， 所 有 的 数据 都 可 作 
为 “对象 ?进行 统一 处 理 。 不 过 ， 它 不 具备 “类 ”这 样 的 所 谓 普 通 面 同 对 
象 语言 所 提供 的 功能 。 后 面 还 要 说 明 ， 即 使 去 除 JavaScript 面 癌 对 象 
的 编程 功能 ， 它 也 可 以 作为 普通 的 结构 化 编程 语言 来 使 用 "。 


6 JavaScript 的 专用 语 中 包含 了 “class”。 这 也 许 是 预 留 ， 以 便 将 来 可 能 导入 以 类 为 基础 的 面向 
对 象 编程 。 


只 要 具备 某 种 编程 语言 的 经 验 ， 就 会 很 容易 掌握 JavaScript 的 基础 。 
下 面 就 以 已 具备 某 种 语言 经 验 的 人 为 对 象 ， 对 JavaScript 最 基础 的 部 
分 进行 讲解 。 


名 字 

区 分 大 小 写字 母 。 变 量 名 可 以 由 英文 、 数 字 、 下 划 线 (_) 及 美元 符号 
($) 组 成 。 

注释 

由 // 开 始 的 行 是 注释 语句 。 也 可 以 使 用 C 语言 中 以 /* 开始 和 以 */ 结尾 

的 注释 方式 。 

保留 字 

表 5-1 列 出 了 JavaScript 的 保留 字 ， 共 53 个 ， 对 于 “小 语言 ”来 说 真 不 

少 。 这 些 保留 字 不 能 用 作 函 数 名 或 变量 名 。 其 中 一 些 词 日 前 并 没有 使 

用 ， 是 为 将 来 可 能 的 使 用 而 预 留 的 ， 比 如 用 于 类 型 指定 的 一 些 词 : 


byte、int、float 等 。 


表 5-1 JavaScript 专 用 语 一 览 


oem EE 


char false import package synchronized |while 


\ 五 、 


JavaScript 的 基本 语法 和 C、Java 类 似 。 最 大 的 不 同 是 ，JavaScript 不 
指定 变量 类 型 。 


运算 符 

和 C 语言 类 似 ， 优 先 顺 序 也 基本 相同 。 

琅 数 定义 

JavaScript 的 特点 之 一 是 把 函数 作为 对 象 进行 处 理 。C 也 是 将 函数 作为 
对 象 处 理 ， 但 JavaScript 的 不 同 之 处 在 于 函数 对 象 有 闭 包 (closure) “ 
， 可 以 使 用 函数 外 面 的 局 部 变量 。 这 个 财 包 功能 成 为 了 JavaScript 面 
问 对 象 功 能 的 基础 。 


7 闭 包 是 Ruby 中 的 块 变 为 对 象 后 的 结果 。 它 的 优点 是 ， 只 要 闭 包 还 存在 ， 就 能 访问 闭 包 内 的 


生成 函数 对 象 用 function 语句 ， 如 图 5-9 所 示 。 


function 画 数 名 (参数 ) { 
} 


var 变量 名 =function (参数 ) { 


} 


图 5-9 function 语句 的 使 用 方法 


在 两 个 例子 中 ， 后 者 生成 匿名 函数 对 象 ， 然 后 赋值 给 变量 ， 前 者 生成 
的 画 数 有 函数 名 ， 内 部 功能 是 一 样 的 。 


属性 


JavaScript 可 以 给 任意 的 对 象 精 连 有 名 字 的 对 象 ， 这 称 为 对 象 的 属性 。 
访问 属性 时 使 用 “.”， 如 图 5-10 所 示 。 


bject(); // 生成 对 象 


= 15; // 设 定 对 象 属性 
.X + 0,y; // 访问 属性 


图 5-10 属性 的 使 用 方法 

5.1.7 原型 模式 的 面向 对 象 编程 语言 

JavaScript 是 面 同 对 象 编程 语言 当初 我 认为 它 只 是 容易 舱 入 到 应 用 中 
的 一 种 简单 语言 ， 但 实际 上 它 具 备 了 完善 的 面向 对 象 功能 。 当 我 听 说 
它 上 只 有 原型 模式 的 面 癌 对 象 功能 时 ， 吃 以 地 差点 从 椅子 上 摔 下 来。 

如 果 具 有 原型 模式 的 面 癌 对 象 功 能 的 话 ， 就 可 以 最 大 限度 地 消减 语言 
本 身 的 固有 功能 。 这 非常 适合 于 JavaScript 这 样 的 语言 。JavaScript 的 
设计 者 具有 相当 好 的 直觉 。 


以 类 为 中 心 的 传统 面 加 对 象 编程 ， 是 以 类 为 基础 生成 新 对 象 。 类 和 对 
象 的 关系 可 以 类 比 成 铸模 和 铸件 的 关系 。 


而 原型 模式 的 面向 对 象 编程 语言 没有 类 这 样 一 个 概念 8 。 
i 讲 到 的 prototypejs 库 ， 可 以 生成 名 为 class 的 功能 和 类 相同 的 对 象 。 


mh 


8 使 用 


需要 生成 狐 的 对 象 时 ， 只 要 给 对 象 志 加 属性 。 设 置 贸 数 对 象 作为 属性 
的 话 ， 束 成 为 方法 。 当 访问 对 象 中 不 存在 的 属性 时 ，JavaScript 会 去 搜 
索 该 对 象 prototype 属性 所 指向 的 对 象 。 


ny 利用 这 个 功能 ， 使 用 “委派 ”而 非 “ 继 承 ” 来 实现 面 同 对 和 象 编 
时 。 


9 委派 是 指 ， 把 对 于 某 个 对 象 的 调用 传送 到 男 一 个 对 象 上 。 


5-11 列举 了 一 个 用 JavaScript 实现 的 狗 的 例子 ”。 在 第 4 章 我 们 介 
绍 过 用 原型 模式 的 Io 语言 实现 了 相同 的 程序 。 与 它 相 比 ， 图 5-11 中 


的 程序 感觉 上 介 于 类 模式 和 原型 模式 之 间 。 虽 然 这 个 例子 没有 什么 实 
用 性 ,但 是 可 以 从 中 感受 到 JavaScript 的 面向 对 象 编程 的 氛围 。 

10 读者 可 能 把 对 用 狗 或 其 他 哺乳 动物 作 例子 已 经 厌烦 了 。 这 一 点 我 也 有 同感 ， 但 是 也 举 不 出 
更 好 的 例子 。 


// 生成 Dog。, , ，(A) 
function Dog(){ 
this.sit = function () {return "I'm sitting"} 


= new Dog() 

// dog 是 狗 ， 所 以 能 sit,,，(C) 
.Sit()) 
新 型 myDog . . 。 (D) 

MyDog () {} 

派 原型 
MyDog.prototype = new Dog() 

// 从 MyDoc 生成 新 对 象 nyDog... (E) 
var myDog = new MyDog() 
document .write(myDog.sit()) 


图 5-11 原型 模式 编程 的 示例 

我 们 从 程序 的 一 开始 仔细 来 看 。 (A) 定义 了 狗 对 象 的 原型 函数 Dog 
。 让 人 吃惊 的 是 JavaScript 使 用 了 函数 对 象 来 代 东 类。 函数 对 象 起 到 
了 对 象 构造 器 的 作用 站 。 执 行 构造 右 的 处 理 时 ， 给 this 退 加 新 的 属 
性 ， 从 而 完成 对 象 的 初始 化 。 


11 构造 器 是 指 给 对 象 进行 初始 化 的 函数 。 


(B) 为 了 从 原型 生成 对 象 ， 使 用 了 new 语句 。 和 Java、C++ 是 类 似 
的 。 但 是 new 的 处 理 内 容 有 很 大 的 不 同 。 


原型 Dog 调用 new 完成 了 以 下 处 理 : 
1. 生成 对 象 ; 


2. 将 委派 原型 的 内 部 属性 (proto _) 设置 为 
Dog .prototype:; 


3. 调用 函数 Dog ， 参 数 即 为 传递 给 new 时 的 参数 ; 
4. 返回 新 生成 的 对 象 。 
2 调 出 方法 。 取 出 对 象 dog 的 sit 属性 ， 执 行 这 一 属性 的 函数 对 
Ce te 
那么 ， 继 承 功能 是 如 何 实现 的 呢 ? JavaScript 中 的 继承 风格 完全 变 了 。 


首先 , 像 (D) 那样 定义 原型 画 数 。 目 的 只 是 定义 一 个 子 类 ， 所 以 定 
义 古 空 日 的 。 了 于 类 目 身 的 初始 化 由 MyDog 函数 完成 。 


然后 ， 把 想 要 继承 的 类 的 对 象 赋值 给 靳 原型 对 象 的 prototype 局 
性 。 请 注意 ， 要 赋 的 值 不 是 定义 父 类 功能 的 原型 画 数 ， 而 必须 是 由 父 
类 原型 函数 生成 的 对 象 。 这 就 古 所 说 的 原型 模式 。 


这 样 ， 对 由 新 定义 原型 生成 的 对 象 来 说 ， 当 访问 它 不 知道 的 属性 时 ， 
就 会 委派 给 对 象 dog 。JavaScript 通过 这 种 方式 实现 了 类 模式 语言 中 
相当 于 继承 的 功能 。 

实现 继承 之 后 ， 其 他 是 类 似 的 。 (E) 利用 new 运算 符 生 成 新 对 象 ， 
并 调用 方法 。 


这 样 ，JavaScript 用 较 人 简单 的 方式 可 以 实现 各 种 功能 ， 这 让 人 不 蔡 想 到 
Lisp。 不 过 ， 不 能 否认 的 是 ，JavaScript 的 方式 过 于 简单 反而 使 记述 太 
过 繁 来， 它 不 能 像 Lisp 那样 用 宏 定义 隐藏 复 杂 性 。 


5.1.8 ”使 用 prototype.js 库 


为 了 克服 JavaScript 记述 过 于 党 杂 的 缺点 ，JavaScript 提供 了 进行 功能 
扩展 的 一 些 库 。 在 这 里 介绍 prototype.js (Prototype JavaScript 
Framework) 


prototype.js 是 由 Sam Stephenson 开发 的 ， 是 可 以 在 MIT 许可 证 下 使 用 
的 库 世 。 


12 从 http://prototype.conio.net/ 中 可 以 得 到 。 


prototype.js 受到 了 Ruby 的 影响 ， 方 法 名 和 功能 都 和 Ruby 有 些 相似 。 
Ruby 用 户 可 能 会 觉得 很 熟悉 。 实 际 上 ，Ruby on Rails 中 标准 地 附加 了 
prototype.js 库 ， 使 用 得 很 广泛 。 而 且 在 script.aculo.us 

(http://script.aculo.us/ ) 和 Rico (http://openrico.org/ ) 中 也 被 作为 
JavaScript 的 函数 库 基 础 来 使 用 。 


5.1.9 prototype.js 的 功能 
这 里 ， 我 们 简单 介绍 一 下 prototype.js 的 各 种 功能 。 
Ajax 功 能 


prototype.js 文 持 XMLHttpRequest 对 象 ， 可 以 对 HTML 进行 异步 更 
新 。 具 体 来 说 ， 像 下 述 的 语句 就 可 以 获取 XMLHttpRequest 对 象 。 


new Ajax.Request(url,options) 


实际 上 ， 不 同 的 Web 浏览 器 获取 XMLHttpRequest 对 象 的 方法 也 是 
不 同 的 ， 比 如 正 6.0 之 前 与 之 后 的 版 本 ， 或 者 同样 是 五 ， 因 为 使 用 的 
MSXML ActiveX 对 和 象 的 版 本 不 同等 ， 都 需要 对 它们 区 别 对待 。 
Ajax.Request 帮 有 我 们 屏蔽 了 这 些 与 代码 移植 相关 的 问题 。 


作为 prototype.js 的 Ajax 功能 ， 其 他 还 有 异步 更 新 Ajax.Updater 和 定 
期 异步 更 新 Ajax.PeriodicalUpdater 。 


Enumerable 


这 个 名 字 看 起 来 很 眼熟 吧 ? 它 是 Ruby 的 Enumerable 模块 在 
JavaScript 中 的 实现 。 包 括 了 each 、collect 、select 、detect 
以 及 inject 等 常见 的 方法 名 。prototype.js 对 原 有 的 Array 类 追加 
了 Enumerable， 并 扩展 了 它 的 功能 ， 所 以 对 Array 也 可 以 调用 这 些 
方法 。 


使 用 prototype.js 的 Enumerable 时 需要 注意 以 下 几 点 : 


。 JavaScript 没有 块 的 概念 ， 可 以 把 函数 对 象 作为 参数 来 代替 块 ， 


13 块 在 Ruby 中 可 以 追加 到 方法 调用 的 末尾 ， 作 为 代码 块 来 处 理 。 附 加 块 的 方法 在 被 调用 时 
可 以 调用 块 中 定义 的 内 容 。 


。 JavaScript 中 由 复数 单词 组 成 的 变量 名 ， 不 是 用 下 划 线 进行 连接 ， 
而 是 将 单词 的 百 字 母 大 写 。 例 如 ， 使 用 findA11 、sortBy ， 
而 不 是 find_all 、sort_by: 

。 方 法 名 中 不 能 使 用 “1!” 和“?”。 


Enumerable 提供 的 方法 如 表 5-2 所 示 ， 与 同名 的 Ruby 中 的 
Enumerable 方法 功能 相同 。 


表 5-2 Enumerable 方法 一 览 


但 是 ， 它 提供 了 Ruby 中 不 存在 的 pluck 和 invoke 方法 。 它 们 的 功 
能 如 下 : 


pluck 集合 了 各 要 素 指 定 的 属性 (参见 图 5-12) 。 


def ary.pluck(property) 
ary.map{|x| x[property]} 


end 


图 5-12 Ruby 中 对 于 pluck 的 定义 


invoke 集合 了 各 要 素 调用 方法 时 得 到 的 结果 (参见 图 5-13) 。 


def ary.invoke(method, *args) 
ary.map{|x| x.send(method, *args)} 
d 


en 


图 5-13 Ruby 中 对 于 invoke 的 定义 


Enumerable 方法 的 用 例如 图 5-14 所 示 。 


var ary = [1,2,3,4,5] 
var ary2 = ary.collect(function(x){ 
return x*2 


ary2.each(function (x) { 
document .write("item: "+x+"<br>") 


}) 


图 5-14 Enumerable 方法 的 示例 

使 用 Enumerable 的 功能 写 出 的 程序 会 让 Ruby 的 用 户 觉 得 容易 理 

解 。 不 过 ， 有 了 时候 也 会 觉得 受到 了 语法 的 限制 ， 比 如 : “function 这 
个 保留 字 太 长 了 ”, “人 小 括号 和 大 括号 怎么 混在 一 块 儿 了 呢 ”。 

其 他 扩展 功能 


prototype.js 的 扩展 功能 涉及 到 其 他 各 种 各 样 的 领域 ， 限 于 篇 幅 不 可 能 
在 这 里 全 部 进行 介绍 。 在 此 仅 说 明 其 中 一 些 重要 功能 。 


首先 ， 使 用 0bject .extend() 可 以 给 对 象 妃 加 功能 。 人 例如， 下面 是 
给 自己 生成 的 对 象 obj 追加 Enumerable 功能 : 


Object.extend(obj, Enumerable) 


或 者 ， 像 下 面 这 样 给 既 有 的 类 (函数 对 象 ， 追加 Enumerable 功能 : 


Object.extend(Array.prototype, Enumerable) 


Function 类 的 功能 也 得 到 了 扩展 。JavaScript 的 函数 对 象 作 为 个 体 来 
说 ， 没 有 保存 处 理 对 象 的 信息 。 可 是 当 作为 回调 函数 使 用 的 时 候 ， 有 
时 候 希 望 范 数 对 象 能 够 保持 处 理 对 象 的 状态 。 为 了 实现 这 一 点 ， 
prototype.js 给 Function 类 追加 了 bind 方法 。 


前 面 说 过 Array 类 里 追加 了 Enumerable 功能 ， 除 此 之 外 ，Array 
类 里 还 追加 了 其 他 一 些 Ruby 常用 的 方法 。 

另外 ，String 类 、Number 类 以 及 构成 DOM 用 的 一 些 类 群 里 也 追加 
了 方法 。 最 后 还 提供 了 一 些 函 数 的 缩写 形式 。 


缩写 形式 的 函数 有 ， 从 id 取得 DOM 元 素 用 $() 、 取 得 Form 值 用 
$F()、 变换 成 Array 用 $A( )、 生 成 哈 西 值 用 $H( )、 生 成 范围 对 象 
用 $R() 等 。 


米 米 * 


以 上 讲解 了 Ajax 的 概要 和 组 成 它 的 核心 技术 。Ajax 不 是 一 个 产 技 
术 ， 但 是 它 很 好 地 组 合 了 既 有 的 JavaScript 和 DHTML 技术 ， 在 Web 
浏览 器 上 实现 了 丰富 的 客户 端 应 用 。 


Ajax 已 经 是 人 尽 丝 知 了 ， 成 为 了 Web 2.0 必 不 可 少 的 技术 。 
5.2 Ajax 和 J avaScript (后 篇 ) 


有 很 多 用 Ajax 制作 的 网 站 ， 使 用 起 来 都 很 方便 。 它 们 都 是 用 Web 2.0 
技术 实现 的 。— 典 型 的 例子 就 是 Google Maps。Google Maps 的 特点 是 
对 于 指定 的 地 图 ， 不 仅 是 可 以 显示 一 页 画 而 已 ， 对 地 图 进行 拖拉 操作 
人 台 好 像 是 在 阅览 一 张 已 经 下 载 了 的 大 地 图 一 样 方 


对 地 图 进行 放大 、 缩 小 也 很 方便 ， 好 像 不 征用 Web 浏览 器 而 十 用 专门 
的 软件 来 操作 地 图 那样 好 用 。 在 Google Maps 之 前 的 地 图 网 站 没有 这 


样 方便 的 ， 每 当 移动 地 图 、 改 变 比例 尺 大 小 时 ， 都 要 在 点 击 之 后 等 待 
重新 显示 画面 。 


除了 地 图 之 外 ， 还 有 简单 的 工作 计划 管理 等 也 采用 Ajax 技术 的 网 站 ， 
此 类 站 点 有 很 多 很 多 。 例 如 ， 开 发 了 Ruby on Rails 的 37signals 做 的 
ToDo 管理 网 站 “Tada List”( 参 见 图 5-15) 。 


文件 (E) 编辑 (E) 显示 (Y) 履历 (S) 书签 (8) 工具 中 帮助 (H) 


http:/ /matz tadalis 四 笋 | Gl” 


dh My Lists This liet: Edit | Reorder | Share 


Matz's ToDo 
门 日 经 Linux 原 稿 
美国 出 差 报告 


图 5-15 可 以 管理 工作 计划 的 网 站 Tada List 


在 这 个 网 站 上 ， 添 加 了 工作 计划 (ToDo) 后 ， 就 会 显示 一 个 动画 ， 还 
可 以 通过 拖拉 操作 给 项 目 排序 。 


像 这 样 的 Ajax 网 站 ， 它 们 有 3 个 共同 特点 : 

1. 没有 Web 页面 跳 转 ; 

2. 通过 异步 通信 实现 快速 反应 :; 

3. 实现 了 动画 和 拖 搜 等 单独 使 用 HTML 格式 无 法 表现 的 用 户 界面 。 
构成 Ajax 的 基本 技术 早 在 1997 年 就 已 经 确立 下 来 了 。 到 2006 年 左 
右 ， 计 算 机 性 能 得 到 大 幅度 的 提高 ， 这 一 技术 开始 引 人 人 注目。 构成 
DHTML 基础 的 JavaScript， 真 是 一 个 速度 不 怎么 快 的 语言 。 当 时 的 计 
算 机 大 概 难 以 实现 足够 的 反应 速度 。 


得 益 于 计算 机 的 性 能 提高 和 软件 开发 技术 的 进步 ， 某 种 技术 在 开发 出 
来 之 后 经 过 相当 长 一 段 时 间 才 得 到 普及 ， 诸 如 此 类 的 例子 并 不 少见 。 


20 世纪 70 年 代 在 美国 施乐 公司 的 由 洛 阿尔 托 研究 中 心 (PARC) 诞生 
的 GUI 技术 ， 花 费 了 近 20 年 的 时 间 才 得 到 广泛 使 用 。 


和 我 有 济源 的 编程 语言 Ruby， 当 和 初 仅仅 用 于 生成 个 人 用 的 工具 ， 因 为 
这 样 在 执行 性 能 上 不 会 有 问题 。 但 是 最 近 几 年 ， el 
发 也 开始 采用 它 。 这 反映 了 随 着 计算 机 性 能 的 提高 ， 相 对 于 执行 性 能 
而 言 ， 开 发 效率 更 受到 重视 。 


在 我 号 边 ， 不 断 听 到 有 人 想 在 业务 领域 更 多 地 使 用 Ruby， 让 我 越 来 越 
深切 地 感受 到 这 种 变化 趋势 。 


5.2.1 巧妙 使 用 DHTML 


Ajax 技术 的 核心 要 素 ， 前 面 已 经 介绍 过 有 JavaScript、XML 和 
DHTML。 下 面 ， 更 进一步 地 看 几 个 例子 。 


DHTML 亦 被 称 为 Ajax 的 本 质 技 术 。DHTML， 顾 名 思 义 就 是 可 以 动 
态 地 访问 、 更 新 HIML。 上 有 具体 地 说 ， 就 是 利用 垦 入 到 网 页 中 的 
JavaScript， 使 用 DOMI 操作 页 面 数据 。 


1 DOM 是 操作 HTML 和 XML 的 规范 。 特 点 是 把 HTML 和 XML 作为 树 结构 进行 处 理 。 由 
W3C (World Wide Web Consortium) 定义 的 DOM 规范 称 为 W3C DOM 。 


DHTML 是 在 JavaScript 中 使 用 W3C DOM， 将 HIML 作为 一 种 树 结 
构 进行 操作 。 关 于 树 结构 ， 我 们 稍 后 再 详细 说 明 。 更 进一步 讲 ， 通 过 
对 用 户 输入 的 鼠标 点 击 等 事件 指定 相应 的 JavaScript 函数 ， 可 以 对 动 
作 (action) 进行 定义 。 


通过 W3C DOM 让 JavaScript 操作 HTML 的 例子 见 图 5-16。 将 图 5-16 
的 HTML 文件 用 Web 浏览 器 打开 ， 会 显示 出 “请 点 击 ” 的 字符 串 。 点 击 
字符 串 之 后 ，<div Hd en bt VS 内 的 文字 发 生 改 变 o 


<html><head><title>JavaScript 举例 </title> 

<script type="text/javascript"> 

ls 

function dirspliayonc liek() { 
var result = document.getElementById("result").childNodes[0]; 
result .nodeValue = "已 经 点 击 了 "， 


} 


// --> 

</script></head> 

<body> 

<a onclick="displayonCclick()"> 请 点 击 </a><br> 
<div id="result"> 显 示 会 变化 </div> 


图 5-16 ”和 人 藤 入 了 JavaScript 的 HTML 示例 


5-16 的 后 半 部 分 ， 对 标签 a 的 onclick 属性 进行 指定 。 标 签 范围 
内 的 文字 被 点 击 时 执行 指定 的 JavaScript 的 displayonCclick() 画 
数 。 


函数 displayonCclLick() 使 用 id 取出 页 面 中 相当 于 div 部 分 的 节 
点 (getElementById) ， 通 过 改变 子 节点 的 值 来 更 新 字符 串 。 节 
点 的 概念 将 在 后 面 和 树 结构 一 起 说 明 。 


前 半 部 分 script 标签 里 用 <1-- 和 - -> 围 起 来 的 HTML 注释 是 
JavaScript 的 代码 ? 。 


2 注释 部 分 最 后 一 行 的 开头 加 上 //， 是 为 了 避免 浏览 器 把 --> 也 解释 成 JavaScript。 这 种 做 法 是 
为 了 让 不 支持 JavaScript 的 Web 浏览 器 不 至 于 直接 把 JavaScript 代码 显示 出 来 。 不 过 ， 这 里 介 
绍 的 HTML 文件 都 必须 使 用 那些 支持 JavaScript 的 Web 浏览 器 。 在 后 面 的 例子 中 我 们 就 不 再 
加 /了 。 


ee DHTML ， 服 务 釉 疹 不 需要 准备 CGI 就 可 以 实现 动态 
网 页 。 


5-16 的 HTML 被 读 取 之 后 ， 内 部 会 生成 如 图 5-17 所 示 的 树 结构 。 
树 结 构 中 ，document 相当 于 树 根 ，div 称 为 节点 。 


script 


a 
请 点 击 
图 5-17 显示 图 5-16 数据 的 树 结构 


使 用 JavaScript 对 树 结 构 进 行 探 作 束 是 DHTML 的 本 质 。 因 此 
JavaScript 提供 的 W3C DOM API 有 如 下 的 功能 : 


。 获取 document 斑点 ; 
获取 和 更 新 标签 数据 (包括 文字 、 类 型 以 及 属性 等 ) ; 
。 追加 document 万 点; 


。 设 定 事件 处 理 程 序 (event handler) 3 。 
3 事件 处 理 程序 是 指 事件 发 生 时 执行 的 程序 。 


5.2.2 ”获取 document 节 点 


利用 DOM 的 API 对 HTML 文件 进行 操作 ， 如 图 5-17 所 示 ， 首 先 从 
DOM 树 中 取出 节点 。 可 以 利用 下 面 两 个 函数 取出 节点 。 


getElementById(name) 

getElementById( ) 将 得 到 标签 id 为 name 的 节点 对 象 。 
getElementsByTagName (name) 

getElementsByTagName( ) 将 得 到 标签 名 字 为 name 的 标签 节点 。 
一 般 的 文件 中 会 存在 多 个 同样 的 节点 ， 所 以 


getElementsByTagName( ) 将 返回 万 点 对 象 数组 。 当 取得 第 个 项 
目 时 ， 在 数组 后 附加 [n ] 。 


5.2.3 ”获取 和 更 新 标签 数据 


获取 节点 对 象 之 后 ， 通 过 调用 对 象 的 方法 ， 读 写 对 象 的 属性 等 就 能 够 
I 。 这些 数 据 包括 标签 信息 、 类 型 、 文 字 和 事件 处 
理 程序 等 。 


例如 ， 标 签 的 类 别 由 tagName 属性 来 得 到 : 


node. tagName 


也 可 以 变更 决定 标签 显示 方式 的 style 属性 。 设 定时 先 读 出 节点 的 
style 属性 ， 然 后 设 定 style 对 象 的 属性 值 。 比 如 ， 想 让 node 下 点 
看 不 见 的 话 ， 可 以 进行 以 下 的 设 定 : 


node.style.visibility = 'hidden' 


style 对 象 使 用 了 和 CSS 的 style 属性 相同 的 名 字 。 不 过 两 者 属性 
名 字 的 写法 有 一 定 的 变化 。 具 体 说 ， 就 是 去 掉 “-*?， 将 单词 的 首 字 母 换 
成 大 写 。 例 如 ，CSS 属性 中 的 border-style ， 在 JavaScript 中 该 属 
性 名 称 变 为 borderStyle 。 


改变 标签 中 的 文字 内 容 ， 可 以 从 标签 中 取出 对 应 于 文字 部 分 的 节点 

(文字 节点 ) ， 然 后 指定 该 节点 的 nodeValue 属性 。 图 5-16 的 
HTML 就 使 用 了 这 个 方法 ， 取 出 的 div 标签 的 最 初 节 点 就 是 文字 节 
占 。 


yn 


5.2.4” 设 定 事件 处 理 程序 


指定 对 应 于 某 一 事件 的 事件 处 理 程序 有 两 个 方法 ， 其 中 之 一 是 如 图 5- 
16 那样 指定 标签 的 属性 。 图 5-16 是 把 JavaScript 函数 名 设置 为 a 标签 
的 onclick 属性 值 来 指定 事件 处 理 程 序 。 


万 一 个 方法 是 把 国 数 设置 为 JavaScript 对 象 的 属性 。 有 具体 如 下 面 的 形 


此 


里 程序 名 = function() { 


在 程序 中 指定 事件 处 理 程序 或 者 车 换 事件 处 理 程序 的 时 候 ， 用 第 2 个 
方法 更 方便 。 图 5-18 是 对 图 5-16 进行 的 修改 ， 在 事件 处 理 程 序 中 再 
次 替换 了 事件 处 理 程序 。 


<html><head><title>JavaScript 举例 </title> 
<script type="text/javascript"> 
function displayonClick() { 
var result = document.getElementById("result").childNodes[0]; 
result .nodeValue = "已 点 击 "， 
var atag = document , getElementById("alink"); 
atag.onclick = function() { 
result .nodeValue = "已 返回 " 
atag.onclick = displayOnClick; 


</script></head> 

<body> 

<a id="alink" onclick="displayOnCclick()"> 请 点 击 </a><br> 
<div id="result"> 显示 会 改变 </div> 

</body> 

</html> 


图 5-18 ”通过 属性 设 定 事 件 处 理 程序 


因为 改写 了 点 击 这 个 事件 处 理 程序 ， 和 图 5-16 不 同 的 是 ， 每 次 点 击 都 
会 改变 显示 的 义学 * 


JavaScript 可 以 访问 函数 外 面 的 变 内 部 的 事件 处 理 程序 函数 可 以 省 
略 获 取 result 、atag 二 


W3C DOM 规定 的 事件 处 理 程序 名 如 表 5-3 所 示 。 
表 5-3 事件 处 理 程序 一 览 


事件 处 理 程序 名 | 发 生 时 机 
orevore 


onkeydown 


onkeypress 


ee 
onmousedown 鼠标 按钮 按 下 时 


SE\ 


onresize 窗口 大 小 改变 时 


提交 时 


5.2.5 “追加 标签 节点 
至 此 ， 我 们 说 明了 如 何 变更 树 结构 中 既 有 的 属性 ，W3C DOM 还 可 以 
对 树 结构 本 身 进行 操作 。 


用 appendCchild 方法 可 以 为 节点 对 象 奶 加 节点 ， 消 除 厄 点 用 
removeChild 方法 。 图 5-19 的 HTML 文件 ， 每 次 按键 点 击 都 会 增加 
一 个 文字 节点 。 点 击 按键 之 后 ， 在 末尾 就 追加 了 新 的 文字 。 


<html><head><title>JavaScript 范例 </title> 
<script type="text/javascript"> 
function appendText() { 
var body = document.getElementsByTagName("body")[0] 


var p = document.createElement("p") 


p.appendCchild(document.createTextNode(" 已 点 击 。") ) 
body,appendchild(p) 
</script></head> 
<body> 
<input type="button" Value=" 点 击 ! " onclick="appendText()"/> 
</body> 
</html> 


图 5-19 ”可 以 追加 文字 节点 的 HTML 
5.2.6 ”本 地 HTML 应 用 


好 了 ， 采 用 以 上 讲解 的 DHTML 功能 和 JavaScript 编程 ， 只 用 HTML 
就 可 以 完成 简单 的 Web 应 用 。 


5-20 显示 的 程序 是 仅 用 HTML 实现 的 ToDo 应 用 程序 。 将 图 5-20 
的 内 容 你 存在 文件 中 。 比 如 保存 为 /tmp/todo.html， 那 么 URL 就 是 
file:///tmp/todo.html。 用 Web 浏 贤 右 读 入 的 话 显示 出 如 图 5-21 那样 的 
画面 。 


<html><head><title>ToDo</title> 
<script type="text/javascript"> 
var todos = new Array'( ) 
function focusInput() { 
var itext = getElementById("itext") 
itext.value = "" 
itext.select() 
itext.focus() 


} 
function updateToDo() { 
var list = "<table>" 
for (i=0; i<todos.length; i++) { 
list = list + "<tr><td><input type='checkbox' 
onclick='checkToDo(" + i +")'" + (todos[i][0]? " checked>" :; "> 
</td>\n") 


list = list + '<td><div>'+ todos[i][1i] + '</div></td></tr>'" 
list = list + "</table>" 
document .getElementById("1list").innerHTML = list 
focusInput() 


function addToDo() { 


var input = document getElementById("Itext") .Value 
if (input == "")return 

todos[todos.length]= new Array(false, input) 
updateToDo() 


} 
function addToDoTxt(event) { 
var kc = (event.keyCode || event .which); 
var v = document.getElementById("itext").value 
if (kc == 13 && Vv != "") { 
addToDo() 
} 


function checkToDo(pos) { 
for (i=pos; i<todos.length-1; i++) { 
todos[i]= todos[i+1] 


todos.1length-- 
updateToDo() 


</script></head> 

<body> 

<ul> 

<1i> 输 入 文字 后 按 登 录 按钮 

<1i> 完 成 后 请 点 击 复 选 框 

</U]> 

<input id="itext" type="text" value="" 
onkeypress="addToDoTxt (event)"/> 
<input type="button" value=" 登 录 " onclick="addToDo()"/> 
<div id="list"></div> 

</body> 

</html> 


图 5-20 只 用 HTML 记述 实现 的 ToDo 应 用 


ToDo - Windows Internet Explorer 
和 | 荐 Cinefiodohtm| 国 | 秆 | 关 

文件 ( 蛋 纺 奶 (EE] 显示 MW 属 历 (S) 书 和 演 旧 工具 四 ”帮助 册 
宽 突 | 钼 Tobo RN 


图 5-21 ToDo 应 用 的 初始 画面 


在 文字 栏 中 输入 预定 项 目 ， 按 下 键 之 后 追加 项 目 ， 成 为 图 5-22 的 样 
子 。 完 成 预定 项 目 之 后 ， 单 击 复 选 框 ， 消 除 项 目 。 


。 畏 入 代 字 忆 按 营 录 近 和 乌 
*。 完 碾 后 渤 点 击 复 议 诠 
受 寺 | 
口 日 经 Limmwx 奈 到 


口 某 国 出 差 报 寺 


图 5-22 在 图 5-21 中 追加 了 项 目 之 后 的 样子 


虽然 这 是 个 非常 简单 的 程序 ， 但 它 能 把 预定 项 目 奶 加 到 列表 里 ， 完 成 
之 后 可 以 消除 挥 ， 已 经 提供 了 作为 ToDo 应 用 所 应 具备 的 最 基本 功 


合 巴 
月 °? 


可 是 ， 此 应 用 仅仅 把 信息 保存 在 Web 浏览 器 的 网 页 中 ， 浏 览 器 终止 之 
， 的 信息 束 消 抒 了 。 重 置 页 面 也 会 消 掉 信息 ， 所 以 基本 上 没有 实 


5.2.7 ”和 服务 器 间 的 通信 


使 用 DHTML 之 后 ， 对 于 较 人 简单 的 应 用 ， 在 客户 端 束 能 够 实现 。 但 
0 所 以 保存 和 获取 数据 时 需要 和 服务 器 进行 
通信 。 

Ajax 是 利用 XMLHttpRequest 对 象 来 进行 异步 通信 的 。 就 像 之 前 讲 
述 的 ， 不 需要 网 页 跳 转 ， 在 后 台 就 可 以 进行 通信 。 


可 是 ， 在 获取 XMLHttpRequest 的 阶段 ，JavaScript 编程 常常 会 页 到 
兼容 性 问题 。 


世界 上 有 多 种 Web 浏览 占 。 能 够 文 持 JavaScript 的 有 代表 性 的 浏览 右 


有 : Internet Explorer、Firefox、Opera、Safari 和 Google Chrome 等 。 


而 且 ， 不 同 的 Web 浏览 器 获取 XMLHttpRequest 对 象 的 方法 也 各 不 
相同 。 因 此 ， 获 取 XMLHttpRequest 对 象 时 有 必要 像 图 5-23 那样 进 
行 区 分 


function GetxXmlHttpReq() { 
var xmlhttp; 
if(XMLHttpRequest) { 
return new XMLHttpRequest(); 


} 
else if (window.ActiveXOobject) { 


try { 
return new ActiveXObject("Msxml12.XMLHTTP"); 


} catch (e) { 
try { 
return new ActiveXObject("Microsoft.XMLHTTP" ) ， 
} catch (e) { 
return false; 


图 5-23 取得 XMLHttpRequest 的 JavaScript 代码 


如 图 5-23 所 示 ， 问 题 在 于 Internet Explorer 和 其 他 的 Web 浏览 器 都 不 
一 样 ， 非 常 麻 烦 。 


5.2.8 ”使 用 Prototype.js 的 优点 
使 用 Prototype.js 的 话 ， 不 需要 那样 麻烦 的 记述 。 
使 用 Prototype.js 获取 XMLHttpRequest 对 象 的 方法 如 下 。 


req = Ajax.getTransport() 


和 图 5-23 相 比 ， 这 样 瓯 简单 多 了 。 另 外， 经 常 使 用 的 
getElementById( ) 函数 在 Prototype.js 中 变 成 了 $() 的 形式 ， 还 有 
其 他 很 多 能 让 程序 变 短 的 技巧 。 


下 面 的 程序 示例 使 用 了 Prototype.js。 


5.2.9 在 服务 器 上 保存 数据 


现在 看 看 如 何在 服务 器 上 保存 数据 。 在 服务 器 上 保存 数据 的 Ruby 程 
序 如 图 5-24 所 示 。 


#! /usr/bin/env ruby 
require 'cgi' 
cgi = CGI.new 
file = "todo.txt" 
If cgi.key?("add") 
data = cgi["add"] 
open(file, "a") do |f| 
f.flock(File: :LOCK_EX) 
f.print format("%d%d",Time.now.to_i,rand(10)), ":" # id 
f.print data, "\n" 
end 
elsif cgi,.key?("del") 
id = cgi["del"] 
open(file, "r+") do |f| 
f.flock(File: :LOCK_EX) 
data = f.readlines.delete if do |linel| 
line =~ /^#{id}:/ 
end.join 
f.rewind 
f.print data 
f.truncate f.pos 
end 
else 
open(file, "r") do |f| 
f.flock(File: :LOCK_SH) 
data = f.read 


print cgi.header("content-type"=>"text/plain", "charset"=>"UTF-8") 
print data 


图 5-24 ”保存 数据 的 脚本 示例 

处 理 内 容 较 简 单 : 如 果 参 数 是 add 的 话 ， 就 把 内 容 追 加 到 数据 文件 
中 ;如 果 参 数 是 del 的 话 ， 残 删除 指定 的 项 目 ， 其 他 情况 下 ， 返 回 数 
据 文 件 内 容 。 


把 图 5-24 的 内 容 保存 到 data.rb 文件 中 ， 与 HTML 文件 保存 在 同一 路 
径 下 。 男 外 ， 如 图 5-25 所 示 ， 需 要 在 .htaccess 文件 中 把 .rb 文件 退 加 为 


CGI 执行 的 设置 。 这 里 ，HTML 文件 名 是 index.html 。 


Options +ExecCGI 
AddHandler cgi-script .rb 


DirectoryIndex index.html 


图 5-25 ”在 .htaccess 文件 中 追加 的 内 容 


现在 来 利用 这 个 服务 器 端的 脚本 程序 和 Prototype.js， 在 ToDo 应 用 中 
追加 保存 数据 的 功能 。 


最 初 需要 装载 Prototype.js。 在 HTML 中 JavaScript 代码 部 分 前 面 加 入 
5-26 所 示 的 工行 内 容 。 另 外 不 要 未 记 HTML 文件 和 Prototype.js 需 
要 保存 在 同一 路 径 下 4。 


4 Prototype.js 的 下 载 地 址 是 http://www.prototypes.org 。 本 文 的 脚本 在 1.6.0.3 版 本 上 完成 了 动 
作 确 认 。 


<script type="text/javascript" src="prototype.js"></script> 


图 5-26 ”装载 Prototype.js 时 的 记 壕 


下 面 将 追加 数据 的 加 载 和 保存 功能 。 从 现在 开始 ， 使 用 CGI 通过 
HTTP 服务 器 进行 处 理 。 


具体 地 说 ， 是 将 图 5-20 给 出 的 HTML 文件 中 JavaScript 部 分 的 
updateToDo() 、addToDo() 、checkToDo( ) 函数 蔡 换 成 图 5-27 
中 给 出 的 同名 函数 。 


function updateToDo() { 
new Ajax.Request("data.rb", { 
onComplete: function(req) { 
var lines = redq.responseText.split("\n") 
todos = new Array() 
lines.each(function(line) { 
if (line != "") 
var chunks = line.split(":") 
var id = chunks.shift() 
Var item = chunks.join(":") 


todos.push(Array(false,item, Id ) ) 
} 
}) 


var list = "<table>" 
for (i=0; i <todos.length; i++) { 
ist = list + "<tr><td><input 
type='checkbox'onclick='checkToDo(" + todos[i][2] +")'" + 
(todos[i][0] ? " checked>" :; "></td>\n") 
ist = list + '<td><div>'+ todos[i][1i] + '</div></td></tr>' 
} 
list = list + "</table>" 
$("list").innerHTML = list 
focusInput() 


}) 
上 


function addToDo() { 
var input = $("itext").value 
If (input == "") return 
var data = "add="+encodeURIComponent (input) 
new Ajax.Request("data.rb", {postBody: data}) 
updateToDo() 

} 

function checkToDo(id) { 
var data = "del="+id 
new Ajax.Request("data.rb", {postBody: data}) 
updateToDo() 


} 


图 5-27 使 用 了 Prototype.js 的 数据 加 载 和 保存 


5-27 中 对 功能 进行 改善 的 本 质 内 容 是 各 函数 中 出 现 了 一 次 
Ajax.Request 。Ajax.Request 的 使 用 方法 如 下 所 示 。 


new Ajax.Request(url, options) 


url 是 请 求 的 对 象 地 址 ， 实 际 的 动作 由 options 中 的 指定 的 哈 希 值 
来 控制 。options 中 可 以 指定 的 内 容 如 表 5-4 所 示 。 


表 5-4 Ajax.Request 的 options 指 定 的 内 容 
8 


onSuccess 连接 成 功 时 调用 
parameters 传 给 请 求 对 象 的 


er 


ToDo 数据 加 载 时 (图 5-27 的 updateToDo 函数 ) ， 指 定 了 
onComplete 函数 ， 这 样 读 完 数据 之 后 将 调用 指定 的 函数 。JavaScript 
可 以 简单 地 编写 匿名 函数 ? ， 所 以 不 用 总 是 考虑 函数 名 ， 比 较 方 便 。 
此 函数 按 如 下 的 顺序 进行 处 理 : 


营 名 函数 是 指 没有 指定 名 字 的 函数 。JavaScript 通过 使 用 未 命名 的 function 语句 ， 可 以 不 
定义 函数 ， 而 把 函数 当做 值 来 使 用 。 


Ul 


1. 取出 XMLHttpRequest 对 象 的 responseText 属性 中 读 取 的 
数据 (字符 串 ) ; 


2. 将 数据 按 行 分 割 ， 更 新 todos 变量 。Prototype.js 提供 了 split 
、each 等 Ruby 类 的 方法 ， 很 有 用 ; 


3. 调用 updateToDo( ) 函数 ， 更 新 ToDo 列表 。 


上 面 的 处 理 是 异步 进行 的 ， 束 算 获 取 数 据 伦 费 了 很 长 时 间 ，ToDo 应 用 
在 数据 为 空 时 也 能 够 执行 动作 ， 当 数据 全 部 读 入 时 再 更 新 画面 。 


5.2.10 Web 应 用 的 脆弱 性 
实际 上 ， 这 个 ToDo 应 用 还 有 不 少 麻 烦 问题 ， 比 如 XSS ( 跨 站 点 脚 


本 ) 问题 。 像 现在 的 代码 ， 输 入 ToDo 的 项 目 时 如 果 内 容 里 包含 有 
HTML 标签 的 话 ， 就 会 解释 成 HTML 内 容 。 一 个 人 使 用 的 情况 下 还 没 


什么 问题 ， 若 是 不 确定 的 多 数 人 使 用 web 应 用 的 话 ， 不 仅 可 能 会 随便 
加 入 链接 、 图 像 等 ， 还 有 可 能 导致 使 用 JavaScript 的 深层 问题 。 


为 了 避免 这 样 的 事情 发 生 ， 有 必要 将 HTML 标签 转换 为 其 他 安全 的 表 
示 文 字 。 这 里 最 简单 的 方法 是 利用 Prototype.js 的 HTML 转 义 功能 ， 
具体 是 把 函数 updateToDo() 中 图 5-28 中 (A) 的 部 分 改正 成 〈B) 
那样 。 


| 对 于 各 种 人 都 使 用 的 Web 应 用 而 言 ， 有 很 多 地 方 都 需要 特别 
注意 。 


(A) 
list = list + '<td><div>'+ todos[i][1i] + '</div></td></tr>'" 


(B) 
list = list + '<td><div>'+ todos[i][1i]j.escapeHTML() + '</div></td> 
</tr>" 


图 5-28 ” updateToDo( ) 函数 的 XSS 对 应 : 把 (A) 部 分 改写 成 (B) 

5.2.11 使 用 JavaScript 的 感觉 

笔者 平常 没有 使 用 JavaScript 编程 。 为 了 这 次 的 讲解 ， 相 当下 功夫 地 
进行 了 学 习 。 对 于 我 来 说 ， 已 经 好 人 久 没 用 Ruby 以 外 的 动态 语言 进行 
编程 了 ， 觉 得 非常 有 趣 。 有 既然 学 了 ， 在 这 里 就 总 结 一 些 使 用 JavaScript 
的 感觉 。 

作为 动态 语言 名 副 其 实 


因为 有 闭 包 这 样 的 匿名 函数 ， 可 以 较 简 单 地 实现 Ruby 里 的 块 状 操 
作 。 尽 管 像 function 这 样 的 专用 语 太 长 ， 感 沉 有 点 据 烦 。 前 面 介绍 过 
继承 的 实现 有 些 繁杂 ， 但 JavaScript 编程 一 般 不 会 出 现 继承 ， 所 以 没 
有 在 意 。 


DHTML 比 想象 的 更 有 趣 


把 HTML 作为 数据 进行 操作 ， 改 变 属性 或 是 追加 市 后 等 都 相当 有 趣 。 
特别 是 可 以 直接 看 到 操作 的 结果 ， 感 觉 很 直观 。 


Prototype.js 也 不 错 


Prototype.js 能 够 把 单独 使 用 JavaScript 编程 时 索 杂 的 部 分 给 屏蔽 掉 。 
作为 Ruby 编程 语言 的 作者 ， 我 也 很 高 兴 Prototype.js 包含 了 Ruby 里 
的 Enumerable 和 String 功能 。 


调试 比较 麻烦 


JavaScript 里 就 特有 程序 错误 ，Web 浏 贤 右 也 不 会 显示 任何 信息 。 想 要 
确认 程序 的 状态 ， 只 能 多 次 使 用 alert()。alert() 可 以 弹出 一 个 
消息 窗口 ， 显 示 作 为 参数 授 收 的 字符 串 。 类 似 于 Ruby 程序 中 使 用 
print 的 调试 方法 。 


Firefox 提供 了 Firebug 的 扩展 功能 ， 对 于 JavaScript 的 调试 非常 有 用 。 
在 本 书 这 次 的 写作 中 也 起 到 了 很 大 的 帮助 。 


兼容 性 的 问题 


各 个 Web 浏览 器 相互 独立 地 实现 了 JavaScript 解释 器 。 虽 然 JavaScript 
有 标准 规格 (ECMA-262)， 但 在 动作 细节 上 各 有 不 同 (特别 是 Internet 
Explorer) 。 这 次 介绍 了 的 获取 XMLHttpRequest 对 象 的 方法 就 是 一 个 
例子 。 


我 有 一 位 朋友 的 业务 是 做 Ajax 应 用 开发 。 按 照 他 的 说 法 ，Ajax 开发 
最 难 的 一 点 就 是 Web 浏览 器 间 JavaScript 的 兼容 性 问题 。 不 同 的 web 
浏览 器 都 各 上 自 独立 实现 了 JavaScript 的 处 理 程序 。 虽 说 有 标准 规格 ， 
细部 分 很 多 都 不 兼容 。 在 Firefox 和 Opera 上 能 够 执行 ， 在 Internet 
Explorer 上 却 无 法 执行 ， 类 似 情况 经 常 出 现 ， 让 人 十 分 头疼 。 饮 水 思 
源 ， 大 家 在 使 用 Ajax 应 用 时 ， 也 许 应 该 想起 那些 因为 兼容 性 问题 而 无 
法 入 虐 的 技术 人 员 。 


名 字 的 重要 性 


在 美国 ， 人 们 相信 一 个 说 法 : 所 有 人 和 物 都 有 名 有 姓 ， 知 道 了 他 的 
名 字 束 可 以 控制 他 。 因 此 ， 他 们 会 对 目 己 的 真实 姓名 保密 ， 仪 仅 对 
家 人 或 是 真正 能 够 信赖 的 人 才 公 开 。 对 外 只 告诉 译名 。 这 么 一 说 ， 
厄 休 拉 。 勒 十 恩 的 《加 德 战 记 》 束 是 这 么 做 的 呢 。"“ 加 德 ? 和 是 主人 公 
的 真实 名 字 ， 在 故事 中 基本 没有 使 用 ， 一 般 总 叫 他 为 “锅子 ”。 


有 时 候 会 觉得 这 种 说 法 在 某 种 程度 上 确实 有 道理 。 也 殉 是 说 ， 事 物 
名 字 具 备 一 种 说 不 出 原因 的 神秘 文 配 力量 。 


比如 ， 本 章 讲解 的 Ajax 也 是 这 样 。Ajax 本 来 只 是 多 种 技术 的 组 
合 ， 而 且 没 有 什么 新 奇 之 处 ， 只 是 目 然 地 组 合 在 一 起 。 但 是 ，Ajax 
却 风靡 一 时 ， 改 变 了 之 后 的 网 站 形象 。 最 近 没 怎么 听 到 关于 Ajax 的 
说 法 ， 主 要 是 因为 网 站 使 用 Ajax 已 经 被 认为 是 常识 性 的 问题 。 


我 个 人 感觉 ，Ajax 成 功 的 原因 不 仅仅 因为 单纯 的 技术 组 合 ， 还 在 于 
名 字 有 魅力 。 名 字 确 实 很 重要 。 


Ruby 也 有 同样 的 感觉 。 我 在 1993 年 开始 开发 Ruby， 仿 造 Perl 取 了 
Ruby (红宝石 ) 的 名 字 。 正 是 因为 这 个 短 而 美丽 的 名 字 ， 才 能 够 维 
持 长 时 间 的 开发 动力 ， 让 如 此 多 的 用 户 对 Ruby 语言 感 兴趣 。 


因此 ， 我 设计 上 的 一 个 座右铭 就 是 名 字 很 重要 。 设 计 任 一 功能 时 ， 
我 首先 会 着 重 考虑 它 的 名 字 。 在 我 作为 编程 人 员 的 生涯 中 ， 名 字 好 
的 功能 都 成 功 了 ， 而 名 字 不 太 好 的 功能 事后 往往 让 人 后 悔 。 


实际 上 ， 对 于 有 人 提出 追加 Ruby 功能 的 要 求 也 经 常 看 名 字 。 拒 绝 
时 的 回答 是 : “我 们 明日 这 个 要 求 。 知 道 和 大 有 此 功能 会 更 方便 。 但 是 
不 喜欢 这 个 名 字 。 大 有 一 个 好 名 字 我 们 就 会 采用 。 ”而且 ， 对 于 因为 
不 喜欢 名 字 而 没有 实现 的 功能 ， 之 后 我 也 没有 觉得 后 悔 。 


也 许可 以 这 么 来 考虑 吧 。 起 了 一 个 合适 的 名 字 本 喘 束 意 味 着 功能 设 
计 得 正确 。 反 过 来 ， 起 了 不 好 的 名 字 说 明 设计 者 目 己 也 没有 完全 理 
解 应 完成 什么 样 的 功能 。 我 个 人 认为 ， 为 一 个 功能 起 个 合适 的 名 字 
就 已 经 完成 了 八成 的 工作 。 


请 大 家 试 试 起 名 字 更 加 用 心 些 会 如 何 ? 也 许 下 一 个 项 目 成 功 的 秘密 
就 在 于 此 呢 。 


第 6 章 Ruby on Rails 


6.1 MVC 和 Ruby on Rails 


MVC 是 设计 GUI 程序 时 的 设计 模式 1 之 一 。 名 字 来 自 于 模型 

(Model) 、 视 图 (View) 和 控制 (Controller) 三 个 单词 的 首 字 母 。 
大 部 分 设计 模式 仅 决 定 程序 某 一 部 分 的 构成 ， 而 MVC 决定 了 应 用 程 
序 的 整体 部 分 ， 有 了 时候 也 被 称 为 架构 模式 。 


1 设计 模式 是 软件 设计 ， 特 别 是 在 以 面向 对 象 为 基础 的 软件 设计 里 经 常 使 用 的 编程 用 语 。 最 
简单 的 例子 就 是 for 循环 。 


MVC 最 早 是 作为 编程 语言 Smalltalk 带 窗口 (GUI) 的 应 用 架构 指针 
而 诞生 的 。 据 说 ， 发 明 MVC 的 是 当时 美国 施乐 公司 下 属 的 帕 洛 阿尔 
托 研 究 中 心 (PARC) 的 挪威 人 Trygve Mikkjel Heyerdahl Reenskaug” 
。 Simula 的 开发 者 是 Kristen Nygaard (挪威 ) ，C++ 的 开发 者 是 
Bjarne Stroustrup (丹麦 ) ， 在 面向 对 象 开发 的 历史 上 ， 北 欧 人 贡献 卓 
车 3 。 


2 Reenskaug 发 明 MVC 大 约 是 在 1978 年 。 最 初 被 叫做 MVCE 


(Model:View:Controller-Editor) , http://heim.ifi.uio.no/trygver/themes/mvc/mvc-index.html 。 


3 每 年 都 在 丹麦 举行 Java 和 面向 对 象 的 会 议 JAOO。 我 和 他 们 3 人 就 是 在 那里 认识 的 。 我 参 
加 过 两 次 这 个 会 议 ， 每 次 都 收获 颇 丰 。 只 可 惜 离 日 本 太 远 ， 出 席 会 议 不 太 方便 。 


6.1.1 模型 、 视 图 和 控制 的 作用 


MVC 中 的 模型 ， 是 表现 窗口 中 表示 内 容 (信息 ) 的 对 象 。 模 型 代表 的 
2 种子 ` 数值 等 抽象 的 信息 ) ， 它 不 能 包含 如 何 来 显示 这 些 


视图 ， 代 表 将 模型 中 包含 的 信息 在 帘 口 中 进行 表示 的 对 象 。 视 图 知道 
要 表示 的 模型 的 信息 ， 而 模型 一 般 不 知道 要 表示 目 己 的 视图 信息 。 


控制 ， 是 从 用 户 端 接受 输入 ， 对 视图 和 模型 进行 操作 的 对 象 。 
以 上 关系 如 图 6-1 所 示 。 用 户 通过 鼠标 和 键盘 把 输入 传送 给 控制 部 


分 。 探 制 部 分 可 以 调用 模型 和 视 岁 ， 根 据 需要 调用 相应 的 方法 ， 对 应 
用 程序 整体 进行 控制 。 


了 了 


图 6-1 模型 、 视 图 以 及 控制 各 部 分 的 功能 和 相互 间 的 关系 


钢 图 可 以 访问 模型 ， 在 窗口 中 显示 模型 的 状态 。 查 询 模 型 的 状态 有 多 
种 方法 。Smalltalk 一 般 是 利用 0bject 类 中 内 骸 的 Observer 模式 4 。 
R00 
状态 。 


4 Observer 模式 ， 是 一 种 降低 多 个 对 象 间 依 赖 性 的 较 有 效 的 设计 模式 。 使 用 目的 是 观察 状态 的 
变化 ， 并 发 出 相应 的 通知 。 


视图 部 分 能 否 访 问 控制 部 分 要 视 不 同 应 用 而 定 。 图 6-1 表示 的 是 能 够 
访问 的 情况 。 对 于 简单 的 窗口 应 用 ， 在 大 多 数 情 况 下 ， 视 图 没有 必要 
去 访问 控制 。 但 是 ， 当 应 用 变 得 复杂 时 ， 视 图 和 控制 之 间 的 相互 作用 
就 变 得 越 来 越 频 繁 ， 很 多 时 候 也 束 变 成 一 体 了 (以 后 会 讲 到 ) 。 


男 一 方面 ， 模 型 没有 必要 设计 成 可 以 访问 视图 部 分 或 控制 部 分 。 从 图 
6-1 可 以 看 到 ， 没 有 从 模型 出 来 的 稍 头 ， 这 是 因为 模型 和 视图 有 可 能 
不 是 一 对 一 的 关系 。 换 人 句 话 说 ， 同 样 的 模型 可 以 对 应 多 个 视图 。 


比如 ， 考 虑 一 下 钟表 应 用 。 模 型 相当 于 记录 时 间 的 机 构 。 视 图 则 是 实 
际 表示 时 间 的 部 分 ， 既 可 以 古 模拟 表 ， 也 可 以 十 数字 表 。 这 种 情况 
下 ， 只 要 更 换 视图 部 分 的 对 象 束 能 实现 钟表 的 不 同 表示 。 因 此 ， 如 果 
把 模型 设计 成 直接 访问 视图 整 不 方便 了 。 


把 代表 应 用 逻辑 的 模型 部 分 与 提供 界面 的 视图 和 控制 部 分 分 离开 来 还 
有 其 他 一 些 好 处 。 将 来 ， 当 更 换 界面 或 是 追加 其 他 一 些 大 规模 变更 

时 ， 对 应 用 逻辑 的 影响 也 较 少 。 相 对 应 用 逻辑 变更 来 说 ， 界 面 变更 的 
情况 占 绝 大 多 数 ， 所 以 把 它们 分 离开 来 是 很 合理 的 。 


6.1.2 ”用 秒表 的 例子 来 学 习 MVC 模 式 


只 作 理论 上 的 讲解 ， 还 不 容易 让 人 理解 使 用 MVC 有 什么 方便 。 这 
里 ， 我 们 准备 了 示例 程序 。 


这 次 使 用 的 例子 是 一 个 简单 的 秒表 程序 。 画 面 上 表示 出 经 过 的 时 间 ， 
按键 型 上 任意 键 月 动 或 停止 秒 表 ， 按 下 g 键 时 退出 程序 。 计 时 单位 和 
普通 的 数字 秒表 一 样 ， 是 1/100 秒 。 


为 了 以 MVC 模式 来 实现 程序 ， 首 移 开 始 考虑 对 象 的 构成 。 既 然 是 
MVC 模式 ， 需 要 准备 模型 、 视 图 和 控制 这 3 个 对 象 。 


如 表 6-1 那样 简单 地 进行 划分 。 这 是 一 个 典型 的 MVC 构成 。 类 名 中 
直接 包含 了 代表 其 作用 的 单词 ， 可 以 看 到 重要 的 是 不 能 混 消 它们 的 功 
能 。 


表 6-1 秒表 程序 中 MVC 模 式 的 构成 


一 


那么 ， 先 来 看 看 模型 类 WatchModel 的 代码 (参见 图 6-2) 。 


#! /usr/bin/ruby 


require "observer" 


# the Model class count clock ticks 
class WatchModel 
include Observable 
def initialize 
@running = false 
Qtime = 0 
Q@last = 0.0 
Thread.start do 
loop do 
sleep 0.01 
If @running 
now = Time.now.to_f 
Qtime += now - @last 
Q@last = now 


changed 
notify_observers(@time) 
end 
end 
end 
end 


def start_stop 
Q@last = Time.now.to_f 
Qrunning = ! @running 

end 

def time 
Q@time 

end 

end 


图 6-2 ”秒表 程序 中 的 模型 部 分 


首先 ， 为 了 实现 模型 和 视图 的 协作 ， 本 程序 利用 了 设计 模式 之 一 的 
Observer 模式 。 所 以 ， 程 序 的 开头 要 加 载 observer 库 。 接 着 ， 因 为 
WatchModel 要 成 为 Observer 模式 的 观察 对 象 ， 所 以 在 类 定义 的 开头 
要 包含 0Observable 模块 。 


类 WatchModel 有 3 个 方法 : initialize、start_stop 和 
time 。initialize 初始 化 模型 ， 让 秒表 开始 计数 。initialize 
方法 中 使 用 的 无 限 循环 有 点 特别 。 但 是 ， 在 使 用 线程 时 程序 是 可 以 写 
成 这 样 的 。 请 注意 ， 此 循环 是 在 别 的 线程 中 进行 的 。 


在 主 循环 中 ， 每 次 sleep 0.01 秒 。 这 次 采用 的 计时 精度 是 /100 秒 ， 
所 以 每 次 加 算 0.01 秒 (1/100 秒 ) 。 在 实例 变量 @running 为 真 的 时 
候 进 行 计时 ， 状 态 变更 的 时 候 则 通知 一 直 在 观察 此 模型 的 观察 者 (这 
里 是 视图 对 象 ) 。 上 有 具体 执行 是 利用 了 设 定 变更 标志 的 changed 方法 
和 实际 通知 的 notify_observers 方法 。 


start_stop 方法 用 来 设置 例 程 变量 Qrunning ， 对 秒表 的 开始 和 停 
止 进行 切 换 。 就 好 像 实 际 的 秒表 那样 执行 。time 方法 则 返回 经 过 的 
时 间 。 


initialize 进行 初始 化 (启动 内 部 的 主 循 环 ) ，start_stop 启动 
或 停止 秒表 ， 用 time 方法 获取 到 现在 为 止 经 过 的 时 间 。 这 就 是 秒表 


的 应 用 逻辑 。 大 还 非 要 再 列举 的 话 ， 也 许 还 需要 复位 功能 。 但 是 ， 通 
过 这 些 方法 ，WatchModel 类 基本 上 提供 了 作为 秒表 应 用 程序 模型 所 
必须 具备 的 功能 。 


6.1.3 ”生成 视图 和 控制 部 分 


模型 的 下 一 步 就 是 视图 ， 图 6-3 给 出 了 秒表 程序 的 视图 部 分 。 构 成 视 
图 的 WatchView 类 很 简单 。 初 始 化 对 象 的 initialize 方法 接受 表 
示 对 象 的 模型 作为 参数 ， 使 用 add_observer 方法 把 自己 登录 为 模 
型 的 观察 者 。 因 为 使 用 了 observer 库 ， 只 有 这 么 一 行程 序 ， 就 可 以 
实现 在 模型 发 生变 更 的 同时 调用 视图 对 象 的 update 方法 。update 
方法 只 是 简单 地 将 到 现在 为 止 的 累积 时 间 表 示 出 来 。 在 这 里 为 了 控制 
Ee 了 ANSI 转 义 符 (ESC [8D) ， 让 光标 移动 到 行 的 开头 再 显 
示 时 间 。 


# the View 
class WatchView 
def initialize(model) 
model.add_observer (self) 
end 


def update(time) 
printf "\e[8D%02d:%02d", time.to_i, (time-time.to_ i)*100 
STDOUT.flush 
end 
end 


图 6-3 ”秒表 程序 的 视图 部 分 


最 后 是 生成 控制 类 (参见 图 6-4) 。 有 多 种 方式 能 够 生成 模型 、 视 图 
和 控制 这 3 个 对 象 间 的 天 联 。 这 里 为 了 构成 简单 ， 让 控制 类 打头 ， 然 
后 生成 男 外 两 个 对 象 ， 把 三 者 进行 了 关联 ”。 


5 复杂 的 应 用 使 用 所 请 的 DI (Dependency Injection) 方法 比较 好 。 


# the Controller 


class WatchController 
def initialize 
Q@model = WatchModel.new 
@view = WatchView.new(@model) 
system "Stty cbreak -echo" 


begin 
@view.update(@model .time) 
loop do 
break if STDIN.getc == ?9 
@model.start_stop 
end 
ensure 
system "stty cooked echo" 
end 
end 
end 


WatchController.new 


图 6-4 ”秒表 程序 中 的 控制 部 分 


控制 类 WatchController 的 ijnitialize 方法 生成 了 模型 和 视图 对 
象 ， 让 三 者 发 生 了 关联 。 


控制 类 接受 用 户 的 键盘 输入 。 这 里 不 想 使 用 curses 库 那 样 大 规模 的 
东西 ， 所 以 用 system 方法 调用 stty 命令 对 终端 进行 设 定 。 


stty cbreak-echo 设 定 成 让 终端 对 每 一 个 键 的 输入 都 进行 响应 
(cbreak 模式 ) ， 不 显示 输入 的 文字 (-echo) 。 这 样 程序 束 可 以 直接 
接受 键盘 的 输入 了 。 


程序 结束 时 希望 回 到 初始 状态 ， 所 以 执行 stty cooked echo 命 
令 ， 回 到 通常 设 定 ， 即 以 行为 单位 读 取 (cooked ) 输入 并 显示 输入 
的 文字 (echo ) 。 使 用 ensure 来 保证 程序 终止 时 一 定 回 到 以 前 的 
设 定 状态 。 

剩 下 的 就 是 控制 部 分 的 主 循环 。 从 键盘 读 取 每 个 输入 ， 如 果 是 q 则 结 
束 ， 否 则 就 调用 模型 的 start_stop 方法 ， 对 秒表 进行 开关 控制 。 


6.1.4 ”GUI 工具 箱 与 MVC 


MVC 是 Smalltalk 语言 用 来 作为 一 般 GUI 应 用 的 构成 方式 。 但 是 ， 其 
他 的 语言 没有 广泛 使 用 MVC。 那 么 ,一般 的 GUI 工具 箱 一 定 也 有 某 
种 构造 模式 。 对 于 它们 来 说 ， 模 型 、 视 图 和 控制 都 是 如 何 构 成 的 呢 ? 
我 们 来 和 MVC 作 一 个 比较 。 


多 数 的 GUI 工具 箱包 括 部 件 (component) 、 事 件 (event) 和 回调 
Se 
6-5) 。 


# Ruby/TKk 

require "tk" 

TkButton.new(nil, 'text' => 'hello', 
'command' => proctprint "hello\n"}). 
pack('fill' => 'x') 


TkButton. RU ‘text' => 'quit', 
'command' => proc{exit}). pack( 'fill'" 
二 > "x"*) 

Tk.mainloop 


图 6-5 ”使 用 Ruby/Tk 的 单纯 的 GUI 应 用 


执行 图 6-5 的 代码 会 显示 如 图 6-6 那样 的 一 个 小 窗口 。 按 下 上 面 的 
hello 键 ， 标准 输出 会 输出 hello， 按 下 下 面 的 quit 键 则 退出 程序 。 


图 6-6 图 6-5 程序 的 输出 结果 


在 这 个 程序 中 ， 功 能 相当 于 视图 和 控制 的 是 TkButton 类 。 
TkButton 类 中 有 (1) GUI 按钮 作为 显示 效果 ， (2) 用 户 按 下 按钮 
(在 按钮 上 点 击 鼠 标 ) 来 实现 功能 。 因 为 使 用 了 按钮 这 样 的 隐喻 方 
GUI 应 用 不 需要 说 明 书 就 能 够 操作 非常 易 懂 。 这 样 ， 外 表 和 功 


能 紧密 地 结合 在 一 起 。 


在 典型 Re 
或 视觉 等 效果 〈 看 起 来 凸 出 来 ) ， 在 点 击 的 瞬间 使 按钮 名 下 去 等 ， 控 
制 和 视图 紧密 协作 ， 共 同 实现 这 些 功能 。 在 这 种 密切 相关 的 情况 下 ， 
YY > 割 | 的 做 法 并 不 明智 。 所 以 ， 多 数 的 工具 箱 都 是 视图 和 控制 

了 分 相 结合 而 被 称 为 部 件 (component) 。 按 钮 、 菜 单 或 菜单 条 等 都 是 
典型 的 GUI 部 件 。 


如 采 说 视 多 和 控制 结合 成 为 了 部 件 ， 那 么 和 模型 部 分 相当 的 又 是 什么 


呢 ? 
实际 上 ，GUI 工具 箱 没 有 提供 和 模型 相当 的 东西 。 作 为 蔡 代 而 提供 了 
访问 模型 的 入 口 ， 这 就 是 回调 。 


6-5 的 程序 中 有 两 处 调用 了 proc 方法 ， 这 就 是 回调 。proc 是 一 种 
方法 ， 可 以 将 完成 一 定 操 作 的 程序 块 作为 对 象 调 出 来 。 当 用 户 输入 发 
0, ( 按 下 按钮 等 ) ，GUI 部 件 通 过 回调 调 出 功能 程序 


回调 一 般 是 较 小 的 操作 功能 ， 发 挥 “启动 "模型 对 象 的 功能 。 回 调 的 功 
能 就 好 像 是 笑 结 “视图 + 控制 "组 成 的 部 件 和 模型 之 间 的 “胶水 ”。 


从 以 上 可 以 看 到 ， 工 具 箱 中 各 个 部 件 和 MVC 类 似 的 构造 可 以 按照 如 
下 来 理解 。 


V+C GUI 部 件 
M 回调 


6.1.5 ”同时 使 用 工具 箱 和 MVC 


GUI 工具 箱 是 靠 这 样 的 部 件 组 合 来 开发 应 用 的 。 那 么 ， 使 用 了 工具 箱 
的 GUI 编程 不 能 使 用 MVC 吗 ? 


GUI 工具 箱 提 供 了 个 别 的 部 件 ， 但 对 应 用 整体 的 染 构 基本 上 没有 文 
持 。 束 算 使 用 了 GUI 工具 箱 ， 把 整体 应 用 构造 成 MVC 模式 ， 这 样 谍 
可 以 开发 出 系统 构成 明确 是 容易 维护 的 应 用 了 。 


那么 ， 让 我 们 来 生成 一 个 使 用 GUI 工具 箱 ， 并 采用 MVC 构成 的 应 用 
吧 。 具 体 来 说 ， 就 是 把 前 面 的 秒表 进行 视图 化 (GUI 化) 。 


6-7 (mvc-gui.rb) 是 使 用 Ruby/Tk 和 GUI 化 的 秒表 程序 。 图 6-7 的 
程序 执行 之 后 会 显示 出 图 6-8 那样 的 窗口 。 按 下 start/stop 按钮 后 ， 秒 
表 开 始 计时 ， 再 次 按 下 则 停止 。 按 下 quit 钮 则 终止 程序 。 


#! /usr/bin/ruby 


require "observer" 
require "tk" 


# the Model class count clock ticks 
class WatchModel 
include Observable 
def initialize 
Qrunning = false 


Qtime = 0 
Q@last = 0.0 
Thread.start do 
loop do 
sleep 0.01 


If Q@running 
now = Time.now.to_f 
Qtime += now - @last 
Q@last = now 
changed 
notify_observers(@time) 
end 


end 


end 
end 


def start_stop 
Q@last = Time.now.to_f 
Qrunning = ! Q@running 


end 


def time 
Q@time 


end 
end 


# the Viewt+Contoller 
class Watchwindow 
def initialize 
model = WatchModel.new 
model.add_observer (self) 


@label = TkLabel.new(nil).pack('fill'=>'x') 


self .update(0) 


btn 
btn 
btn 
btn 
btn 
btn 


= TkButton.new 
‘text('start/stop') 
.Ccommand(proc{model.start_stop}) 
.back('fill'=>'x') 

= TkButton.new 

.text('quit') 


btn.command(proc{exit}) 
btn.pack('fill'=>'x') 
Tk.mainloop 
end 
def update(time) 
@label.text format("%02d:%02d", 
time.to_i, 
(time-time.to_i)*100) 
end 
end 


Watchwindow.new 


图 6-7 秒表 进行 GUI 化 之 后 


-Iolx| 
00:00 


start/stop 
quit 


pa 


图 6-8 图 6-7 程序 的 输出 结 9 


一 起 来 看 看 图 6-7 的 程序 内 容 。 模 型 的 WatchModel 和 以 前 的 文字 版 
完全 一 样 。MVC 构成 把 应 用 的 本 质 部 分 分 离 出 来 ， 所 以 应 用 的 画面 变 
化 基本 上 不 会 给 模型 带 来 什么 影响 。 


剩 下 的 视图 和 控制 ， 是 把 GUI 工具 箱 及 事件 处 理 二 者 结合 起 来 。 模 型 
和 视图 作为 不 同 对 象 分 割 开 的 意义 现在 还 看 不 出 来 。 这 里 我 们 把 模型 
和 视图 二 者 的 功能 用 Watchwindow 类 统一 起 来 。 


类 Watchwindow 使 用 Observer 模式 可 以 收 到 模型 的 变更 通知 ， 这 点 
和 文字 版 的 视图 是 相同 的 。 收 到 变更 通知 后 会 调用 update 方法 ， 它 
改变 label 对 象 的 文字 来 表示 时 间 。 


文字 版 的 控制 是 对 用 户 的 输入 进行 啊 应 。 图 6-7 则 是 交 给 了 
Ruby/Tk。initialize 方法 中 配置 了 GUI 部 件 (表示 时 间 的 标签 和 
秒表 的 操作 按钮 ) ， 指 定 了 对 模型 对 象 进行 操作 的 回调 。 文 字 版 里 的 
循环 部 分 由 Ruby/Tk 的 启动 事件 循环 的 Tk.mainloop 来 实现 。 


这 样 做 了 之 后 ， 这 个 应 用 把 多 个 GUI 部 件 的 小 MVC 统一 成 一 个 GUI 
应 用 的 大 MVC， 实 现 了 多 层 构造 。 


因此 ， 使 用 了 GUI 工具 箱 的 应 用 也 可 以 利用 MVC 构成 。 采 用 了 这 样 
的 构成 之 后 ， 和 功能 本 身 相 关 的 变更 就 只 针对 模型 部 分 来 执行 ， 和 用 
户 界面 相关 的 变更 就 只 针对 视图 和 控制 来 执行 即 可 。 

6.1.6 ”MVC 的 优 缺 点 

上 述 MVC 对 于 软件 设计 有 很 多 优点 ， 总 结 如 下 : 

可 以 更 换 界 面 


刚才 已 经 表明 ， 对 于 模型 未 作 任何 变更 ， 文 字 版 的 秒表 变 成 了 GUI 版 
程序 。 采 用 MVC 构造 可 以 容易 地 更 换 界 面 。 


一 个 模型 对 应 多 个 视图 

使 用 MVC 构造 ， 不 仅 可 以 更 换 界 面 ， 一 个 模型 可 以 同时 赋予 多 个 界 
面 。 比 如 和 数字 表 同 时 执行 的 模拟 表 ， 在 表格 计算 的 同时 ， 和 数值 相 
关 的 图 形 也 一 起 联动 等 。 使 用 MVC 构造 之 后 ， 能 够 自然 地 实现 多 个 
复杂 的 视图 。 

多 个 视图 可 以 同时 响应 

使 用 MVC 构造 准备 好 多 个 视图 时 ， 只 要 编程 不 出 问题 ， 所 有 的 视图 
都 会 同时 响应 模型 的 状态 。 比 如 ， 在 表格 计算 时 ， 每 格 数值 变化 的 瞬 
间 ， 图 形 也 随 之 发 生变 化 。 

容易 测试 


MVC 将 应 用 的 本 质 内 容 作为 模型 独立 出 来 ， 在 生成 界面 之 前 可 以 对 应 
用 逻辑 进行 测试 。 


另 一 方面 ，MVC 不 是 没有 缺点 。 


将 应 用 分 割 成 模型 、 视 图 和 控制 ， 各 个 部 分 设 定 各 目的 功能 ， 对 变更 
要 无 请 后 地 通知 等 ， 要 做 到 这 些 需要 复杂 的 处 理 。 不 过 ， 像 这 次 的 例 


子 程序 这 样 仅 用 60 行 代 码 束 完 成 了 。 只 要 使 用 适当 的 语言 和 适当 的 
库 ， 可 以 将 复杂 性 尽量 降低 。 


强 关 联 性 
虽然 分 离 为 不 同 的 对 象 ， 但 模型 、 视 图 和 控制 三 者 相互 之 间 保 持 了 强 


关联 性 。 对 模型 对 象 进 行 了 功能 追加 这 样 的 变更 之 后 ， 相 应 地 也 必须 
对 视图 和 控制 进行 变更 。 


6.1.7 Web 应 用 中 的 MVC 


到 此 为 止 ， 我 们 见识 了 GUI 应 用 中 的 MVC 案例 。 那 么 ， 在 Web 应 用 
中 ，MVC 是 如 何 发 挥 作用 的 呢 ? 


首先 ， 需 要 意识 到 Web 应 用 的 基本 是 HTTP。HTT?P 的 一 次 处 理 经 过 
了 下 面 1 到 3 的 过 程 : 


1. Web 浏 蜗 絮 对 应 于 用 户 的 操作 ， 向 Web 服务 如 发 出 HTTP 请 求 。 
2. Web 服务 器 根据 请 求 ， 准 备 好 发 送 到 Web 浏览 右 的 数据 。 
3. Web 服务 器 把 数据 以 HTTP 响应 的 形式 送 还 Web 浏览 器 。 
用 MVC 模式 来 对 应 上 述 的 过 程 应 该 是 以 下 形式 。 
1. Web 浏览 器 发 送 来 的 HTTP 请 求 通过 Web 服务 器 传 给 控制 部 分 。 


Web 应 用 框架 的 分 配器 〈 分 配 部 件 ) 把 请 求 传递 给 合适 的 控制 部 
2 


2. 控制 部 分 操作 的 模型 和 请 求 的 信息 相对 应 ， 同 时 指定 显示 使 用 的 
名 图 。 议 图 从 模型 启动 ， 一 这 引用 模型 一 边 淮 备 发 送 给 Web 济 咯 
器 的 数据 。 


3. Web 服务 器 把 数据 以 HTTP 响应 的 形式 送 还 Web 浏览 器 。 


和 较 复 杂 的 GUI 应 用 不 同 的 是 ，HTTP 的 控制 的 流程 对 于 1 个 请 求 会 
返回 1 个 啊 应 ， 从 控制 到 视图 的 处 理 顺序 是 明确 的 。 


6-9 显示 了 作为 使 用 MVC 的 Web 应 用 的 代表 ，Ruby on Rails 的 
MVC 构成 。 不 过 ， 虽 说 Rails 采用 了 MVC， 但 它 的 用 法 和 传统 的 
MVC 模式 还 是 有 些微 妙 的 不 同 。 


HTTP 服务 器 
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图 6-9 ”Web 应 用 中 的 MVC，Ruby on Rails 的 情形 


Rails 中 也 存在 模型 、 视 图 和 控制 ， 各 目 保 存在 独立 的 目录 下 。 构 成 
Rails 应 用 的 目录 下 有 一 个 叫 app 的 子 目 录 ， 在 它 之 下 义 配 置 有 以 下 的 
目录 。helpers 是 指 帮 助 程序 。 


app/models 
app/views 


app/controllers 
app/helpers 


到 此 为 止 ， 在 说 明 的 MVC 模式 中 ， 模 型 是 指 业 务 逻 辑 ， 控 制 妖 指 输 
入 控制 ， 视 图 指 输 出 控制 的 功能 。Ruby on Rails 上 的 MVC 各 部 分 功 
能 稍 有 不 同 。Rails 中 的 模型 相当 于 数据 库 层 ， 视 图 指 显 示 用 的 模板 ， 
控制 器 指控 制 用 的 类 (包含 了 应 用 逻辑 ) 。 

传统 的 MVC 模式 和 Rails 的 MVC 模式 相 比 较 的 话 ， 大 体 上 如 表 6-2 
所 示 的 对 应 关系 ， 相 互 之 间 有 些 不 同 。 


表 6-2 ”传统 的 MVC 和 Rails MVC 的 比较 
E= 


人 


本 来 ，Web 应 用 广泛 采用 3 层 的 系统 架构 。 所 请 3 层 是 指 用 户 界 面 

(UI) 层 、 业 务 逻 辑 层 和 数据 库 层 这 3 层 。 传 统 的 MVC 模型 把 业务 
层 和 数据 库 层 合 为 一 体 称 为 模型 。 这 和 SmallTalk 不 太 使 用 外 部 数据 
库 (系统 本 身 有 持久 化 功能 ， 也 许 有 一 定 的 关系 。 


男 一 方面 ， 由 于 HTT?P 特性 的 关系， 那些 把 UI 部 分 的 复 洒 性 全 部 交 
给 Web 济 蜗 右 来 完成 的 Web 应 用 ， 相 对 来 说 UI 层 会 变 弱 。 控 制 右 用 
一 般 的 设计 区 ® 足 够 了 ， 模 型 和 视图 则 的 关联 也 不 必要 了 。 因 此 ， 把 模 
型 分 割 成 数据 库 层 和 业务 逻辑 层 ， 下 层 称 为 模型 ， 上 层 称 控制 器 。 


实际 上 ，Rails 的 控制 器 不 仅 是 业务 逻辑 ， 也 还 担当 了 一 部 分 控制 功 
能 ， 不 能 说 完全 是 名 不 副 实 。 


同样 是 MVC 模式 ， 各 自 的 功能 却 有 些许 不 同 ， 感 觉 有 点 奇怪 。 也 许 
是 由 历史 原因 造成 的 。 


词语 的 意思 也 稍稍 有 些 不 同 ， 有 点 麻烦 。 不 过 ，Rails 采用 与 传统 
MVC 不 同 的 功能 划分 不 能 说 不 好 。Rails 文 持 的 以 数据 库 为 中 心 的 应 
用 染 构 中 ， 与 把 业务 逻辑 和 数据 库 操 作 合 为 一 体 称 作 模 型 相 比 较 ， 更 
清楚 地 分 割 开 来 ， 会 更 容易 维护 ， 所 以 才 出 现 了 3 层 模 型 。 


6.2 ”开放 类 和 猴子 补丁 


Wikipedia 英语 版 对 猴子 补丁 (monkey patch) 的 解释 是 ， 在 动态 语言 
中 ， 不 改变 源 代码 而 对 功能 进行 妃 加 和 变更 。 


历史 上 ，Zope (Python 的 Web 框架 ) 中 ， 修 正 别人 的 程序 错误 时 在 程 
序 后 面 追 加 更 新 的 部 分 ， 叫 做 “ 厅 有 牌 军 补丁 ” (guerilla patch) ， 杂 牌 军 
=> 猩猩 (gorilla) 一 猴子 (monkey) ， 不 知道 是 怎么 联想 的 。 本 来 的 
含义 是 替换 已 有 的 方法 〈 打 补丁 ) ， 现 在 灵活 使 用 开放 类 ， 变 更 和 追 


加 方法 全 部 称 为 猴子 补丁 。 这 里 也 许 有 “ 打 补 丁 的 对 象 是 类 ”这 一 层 意 


6.2.1 开放 类 


Ruby 的 类 的 特征 是 所 谓 的 开放 类 ， 相 对 其 他 多 种 语言 而 言 ， 特 别 易 于 
打 扒 和 人 本 


开放 类 是 指定 义 了 之 后 也 能 任意 追加 内 容 的 类 。Ruby 中 ， 普 通 的 类 是 
按 以 下 方式 定义 的 。 


class Foo < Bar 
def plus2(arg1i, arg2) 
return arg1 + arg2 


end 
end 


上 面 的 代码 新 定义 了 一 个 叫 Foo 的 类 。 它 的 父 类 是 Bar 。 类 里 用 
def 语句 定义 了 plus2 的 方法 。 


Foo 类 可 以 继承 父 类 Bar 拥有 的 方法 ，Foo 类 的 对 象 可 以 使 用 Bar 
类 的 方法 和 plus2 方法 。 


像 这 样 ，Ruby 可 以 定义 新 类 ， 也 可 以 给 已 有 的 类 追加 定义 。 下 面 就 是 
给 已 经 定义 了 的 类 Foo 追加 方法 。 
class Foo 


def times2(argi, arg2) 
return arg1 * arg2 


end 
end 


有 了 上 面 的 代码 ，Foo 类 就 可 以 使 用 从 Bar 类 继承 来 的 方法 ， 以 及 前 
面 定义 的 方法 plus2 和 新 定义 的 方法 times2。 这 样 对 Foo 类 重新 
定义 之 后 ， 即 使 是 已 经 生成 的 Foo 类 对 象 ， 也 拥有 新 增加 的 功能 。 


Ruby 中 ， 可 以 把 String 类 、Array 类 等 基本 的 数据 类 型 及 所 有 的 
类 都 作为 开放 类 处 理 ， 可 以 目 由 地 追加 功能 。 


6.2.2 ”猴子 补丁 的 目的 


使 用 开放 类 ， 不 改变 原先 的 代码 ， 替 换 方法 (相当 于 打 补 丁 ) 被 称 为 
猴子 补丁 。 使 用 此 技术 可 以 完成 以 下 功能 。 


功能 追加 


利用 开放 类 可 以 给 已 有 的 类 追加 功能 。 回 标准 的 字符 串 和 数组 类 追加 
方法 很 大 胆 ， 有 了 时候 就 非常 有 效 。 


功能 变更 


不 仅 是 追加 方法 ， 替 换 方 法 可 以 让 已 有 的 类 发 挥 完全 不 同 的 功能 。 比 
如 ，mathn 库 作 了 下 面 的 功能 变更 。 


Ruby 里 ， 整 数 相 除 的 结果 还 是 整数 : 


通常 的 结果 是 舍 去 1/3 成 为 0° 不 过 ， 如 果 加 载 mathn ，1/3 的 结果 
可 以 返回 有 理 数 /3。 男 外 也 可 以 扩展 到 求 负数 的 平方 根 返 回复 数值 。 


修正 程序 错误 

因为 重新 定义 了 有 程序 错误 或 有 副作用 的 方法 ， 不 用 修改 原来 那 部 分 
的 代码 就 可 以 解决 问题 。 这 也 是 本 来 的 〈 称 为 杂牌 军 补丁 的 时 候 ) 猴 
于 休 本 的 目的 

钩子 

有 时 候 想 在 每 个 方法 调用 的 同时 增加 一 些 其 他 处 理 ， 比 如 日 志和 输出 功 


能 。 这 种 伴随 方法 调用 而 进行 的 处 理 称 为 “钩子 ”(hook) ， 钩 子 的 追 
加 也 可 以 用 猴子 补丁 来 实现 。 


缓存 (cache) 

在 计算 量 很 大 ， 而 且 一 次 计算 之 后 结果 可 以 反复 使 用 的 情况 下 ， 在 一 
次 计算 完成 后 ， 对 方法 进行 奉 换 可 以 提高 处 理 的 速度 。 比 如 在 ate 库 
中 ， 罗 马 颂 上 略 历 (Julius 历 ) 的 原点 的 计算 瓯 用 了 此 方法 。 


6.2.3 ”猴子 补丁 的 技巧 


可 以 把 Ruby 提供 的 对 方法 、 类 和 模块 进行 操作 的 功能 (参见 表 6-3) 
运用 到 打 猴 子 补丁 上 。 最 基本 的 功能 整 是 给 已 有 的 方法 改名 或 取消 。 


表 6-3 ”对 方法 、 类 和 模块 进行 操作 的 功能 


给 方法 另 起 别 名 
入 其 他 模块 中 的 方 
法 


include 加 入 其 他 模块 中 的 方法 
remove_method | 取消 本 类 中 的 方法 
undef 


undef 


undef 有 把 方法 取消 定义 的 功能 。 用 undef 不 仅 可 以 取消 本 类 中 的 
方法 ， 也 可 以 取消 父 类 中 定义 的 方法 (参见 图 6-10) 。 


class C1 < Object 
def methodl 


class C2 < Cl 
def method2 


c.methodl C 可 以 调用 

et methodl 和 method2 
再 次 打开 类 c2 

class C2 


取消 cl 中 定义 的 方法 


undef methodl 
取消 c2 中 定义 的 方法 


undef method2 
end 


C 已 经 不 认识 methodl 和 method2 了 


出 错 ! 
c .method2 # 出 错 ! 


渤 


c.methodl 


图 6-10 用 undef 来 取消 方法 


这 里 使 用 了 undef 语句 。undef_method 方法 也 可 以 提供 同样 的 功 
能 (参见 图 6-11) 。 语 句 中 用 符号 指定 要 取消 的 对 象 的 方法 名 。 符 号 
是 指 跟 在 冒号 后 的 名 字 ，Ruby 用 这 种 方式 表示 程序 中 的 名 字 等 。 


class C2 用 方法 来 undef 


undef method :method2 
end 


图 6-11 用 undef_method 来 取消 方法 


undef_method 十 类 (正确 地 说 应 该 是 父 类 的 模块 ， 中 的 方法 ， 可 以 
在 类 定义 或 是 模块 定义 中 来 调用 。 


和 undef 、undef_method 非常 相似 的 功能 还 有 remove_method 
。 和 undef 不 同 的 是 ，remove_method 不 是 语句 ， 只 是 提供 了 方 
法 。 


现在 来 取消 类 中 的 方法 。 如 果 取 消 的 对 象 不 是 本 类 中 定义 的 方法 则 会 
出 错 (参见 图 6-12) 。 而 且 ，remove_method 仅 是 取消 本 类 中 定义 
jo 如 果 父 类 中 定义 有 同名 的 方法 ， 则 今后 会 直接 调用 父 类 的 那 
全 


class C1 < Object 
def methodl 
p :methodl 
end 
def method2 
p :method2 
end 
end 


类 cl 提供 的 方法 


class C2 < Cl 
def method2 
end 类 c2 提供 的 方法 
def method3 


end 
删除 C2 的 method3 


remove_ method :method3 


噜 除 C2 的 method2 


Cl 的 method2 就 有 效 了 


remove method :method2 
c2 中 没有 methodl1， 出 错 


remove method :methodl 
end 


图 6-12 用 remove_method 删除 方法 


alias 


给 方法 起 一 个 别名 (参见 图 6-13) ， 起 了 别名 的 方法 和 以 前 的 方法 只 
是 名 字 不 同 ， 功 能 完全 一 样 。 不 过 , 用 undef 或 remove_method 
删除 了 以 前 的 方法 之 后 ， 别 名 的 方法 还 能 使 用 (参见 图 6-14) 。 


class C3 < Object 
def foo 
Ieee Waarey 
end 


给 方法 foo 起 别名 bar 


alias bar foo 


end 


c3 = C3 .new 
c3.foo # 输出 "foo" 
c3.bar # 同样 输出 "foo" 


图 6-13 用 alias 给 方法 起 别名 


class C3 < Object 
def foo 
PDUs SEOON 
end 


给 方法 foo 起 别名 bar 


alias bar foo 
undef foo 
end 


C3 = CINew 
c3.bar # 输出 "foo" 
c3 .foo # 已 经 被 undef， 所 以 出 错 


图 6-14 用 alias 给 方法 起 别名 


alias 是 Ruby 的 语句 。 就 像 undef 有 方法 版 的 undef_method 一 
样 ，alias 也 有 方法 版 的 alias_method 。alias 是 打 猴 子 补丁 时 
最 常用 到 的 功能 。 一 般 做 法 是 ， 给 某 个 方法 用 alias 起 个 别名 ， 在 重 
新 定义 的 方法 中 用 别名 来 调用 原来 的 方法 ， 从 而 给 原来 的 方法 增加 新 
功能 。 图 6-15 显示 了 调 出 方法 后 用 猴子 补丁 来 增加 日 志 功 能 的 例子 。 


打 猴 子 补丁 的 对 象 类 


class ExampleClass < Object 


Sec do sm ns 打 猴 子 补丁 的 对 象 方法 
# 某 种 处 理 


打印 "ao something!" 


p "do_something!" 
end 


d 
ne 生成 ExampleClass 对 象 


e = ExampleClass .new 


调用 印 4o_somethinsg 方法 


打 El"do_something!" 
e.do_something 
为 了 打 猴 子 补丁 ， 再 次 打开 类 
class ExampleClass 


利用 alias 对 原始 方法 进行 保存 


alias do_something_orig do_something 


def do_something 重新 定义 方法 


p "enter do_something" 输出 开始 记录 


调用 保存 的 原始 方法 


do_something_orig 


p "exit do_something" 输出 终止 记录 
end 
end ” y : 
e.do_something 再 用 Sg 2 因 为 EA 
# 输出 i 补 J 9» 所 以 前 后 都 有 记录 答 出 


# "enter do_something" 
# "do_something!" 
# "exit do_something" 


图 6-15 用 alias 打 猴 子 补丁 的 例子 


include 


include 十 类 或 者 模块 中 把 其 他 模块 的 方法 包含 进来 的 功能 。 它 不 像 
undef 或 alias 那样 直接 操作 方法 ， 而 是 用 开放 类 来 给 已 有 的 类 人 退 
加 模块 功能 。 


这 时 候 需 要 注意 的 是 ， 用 include 包含 进来 的 模块 ， 是 作为 〈 假 
想 ) 父 类 来 处 理 的 ， 所 以 模块 提供 的 方法 在 优 移 顺 序 上 要 低 于 本 类 提 


供 的 方法 (参见 图 6-16) 。 用 include 的 时 候 还 要 注意 方法 名 的 重 


复 问 题 。 


module Helper 用 于 追加 功能 的 模块 
def helper 二 提供 helper 和 
p "helper" 


some_method 


end 

def some_ method 
P "Helper#some_ method" 

end 


end 下 = 
举例 用 的 类 Example 
class Example < Object 
include Helper 包含 模块 
Helper 


9 三 巧 用 了 同样 的 名 字 
Pp "Example#some method" some_method 


end 
end 
e = Example.new 生成 对 象 
e.helper 调用 Helper 模块 提供 的 方 


法 ， 没 有 问题 
e.Some method 


磁 到 同名 的 方法 了 时 ，Example 


中 定义 的 方法 优先 


页 序 


图 6-16 include 涉及 的 方法 的 优先 
6.2.4 灵活 使 用 开放 类 的 库 

作为 灵活 使 用 开放 类 库 的 例子 ， 这 里 来 介绍 jcode 。 

Ruby 1.8 的 字符 串 一 般 都 是 字 节 的 组 合 ! ，str[n] 将 返回 字符 捉 的 第 
n 个 字 节 。 如 果 文 字 是 用 EUC 或 JIS 这 样 的 多 字 节 编码 表示 的 话 ， 除 
非 使 用 正则 表达 式 * ， 否 则 无 法 对 应 多 字 广 文字 。 


1 Ruby 1.9 扩展 了 字符 串 ， 成 为 了 文字 的 组 合 。 详 情 见 第 7 间 。 


让 


2 Ruby 的 正则 表达 式 能 够 对 应 多 字 节 ， 只 要 适当 地 指定 了 文字 编码 ， 就 可 以 处 理 EUC、SJIS 
和 UTF-8。 


jcode 库 可 以 不 使 用 正则 表达 式 ， 利 用 开放 类 的 功能 ， 使 得 字符 串 的 
方法 可 以 处 理 多 字 节 文字 。 图 6-17 给 出 的 例子 是 加 载 jcode 库 之 


后 ， 像 tr 这 样 的 字符 串 操 作 方 法 能 够 正确 处 理 多 字 和 文字 。 


#! /usr/bin/ruby -Ke 
s = "abcde" 
p s.tr("a-z", "A - Z") # =>" Z 桥 \332" 


require "jcode" 
p s.tr("a-z", "A - 2Z")#=>"ABCDE" 


图 6-17 用 jcode 库 对 tr 方法 进行 功能 扩展 


tr 方法 可 以 玲 换 文字 。 图 6-17 是 将 半角 的 字母 替换 为 全 角 大 写 的 字 
。 但是， 在 加 载 jcode 库 之 前 的 缺 省 状态 下 ，tr 方法 不 能 正确 地 
处 理 多 守节 文字 文字 福生 了 记 售 (Z 醋 ,s,) “ 


加 载 jcode 库 之 后 ，tr 方法 "理解 了 "多 字 节 文字 ， 所 以 正确 进行 了 
蔡 换 处 理 ， 全 部 蔡 换 成 了 全 角 大 写 的 字母 。 


jcode 替换 表 6-4 中 的 String 类 的 方法 ， 实 现 对 多 字 节 文字 的 处 
理 。 表 6-4 中 “破坏 性 的 方法 "是 指 将 字符 串 本 身 进 行 替换 的 方法 。 例 
如 ，s,squeeze 把 字符 串 s 中 连续 的 文字 压缩 成 1 个 文字 来 返回 一 
个 新 的 字符 串 。 而 “4 的 方法 则 是 替换 字符 串 本 身 内 容 ，s .squeeze ! 
改变 变量 s 本 身 所 指向 的 字符 串 。 


表 6-4 jcode 库 中 替换 的 String 类 的 方法 


删除 字符 串 末 尾 的 1 个 文字 
删除 指定 的 文字 
delete 的 破坏 
对 各 文字 单位 循环 (追加) 
指定 文字 的 次 数 《追加 ) 
jlength 的 别名 (追加 ) 


reverse 文字 的 反 转 (1.9 版 ) 


reverse 的 破坏 性 方法 (1.9 版 ) 


squeeze 连续 文字 的 压缩 


ee 
Ei 


文字 替换 
tr 的 破坏 土 > 


在 多 处 引用 同一 个 对 象 的 情况 下 ， 使 用 破坏 性 方法 会 导致 意 想不到 的 
字符 串 改写 ， 所 以 有 一 定 危险 性 。 但 是 ， 因 为 不 需要 生成 新 的 对 象 
执行 性 能 会 有 所 改善 。 


下 面 来 看 看 jcode 是 如 何 实现 对 字符 串 单 位 进行 操作 的 。 图 6-18 十 
jcode 库 定义 的 String 类 的 delete 方法 的 代码 。 


class String 
def _regex_quote(str) 
str.gsub(/(\\[\[\NIN-\\)|I\\(G.)I([\[\]I\\1)/) do 
$1 || $2 || '\\" + $3 
end 
end 
DeletePatternCache = {} 


def delete! (del) 
return nil if del == "" 
self.gsub!(DeletePpatternCache[del] ||= /[# 
{_regex_quote(del)}]+/, "') 
end 


def delete(del) 
(str = self.dup).delete!(del) or str 
end 
end 


图 6-18 delete 方法 的 实现 


delete 使 用 正则 表达 式 的 gsub 方法 。 需 要 注意 两 点 。 首 先 ， 要 删 
除 的 字符 串 中 可 能 存在 有 正则 表达 式 中 具有 特殊 含义 的 字 符 ， 所 以 用 
_regex_quote 方法 对 这 些 特殊 字符 作 转 义 处 理 ; 其 次 ， 为 了 降低 每 


次 生成 正则 表达 式 的 成 本 ， 在 DeletePatternCache 的 表 中 保存 了 
正则 表达 式 。 


原 有 方法 在 delete 例子 中 虽然 没有 使 用 ,但 若 想 要 在 删除 之 后 还 能 
使 用 的 话 ， 可 以 用 alias 起 个 别名 ， 把 原来 的 方法 保存 起 来 。 例 如 ， 
在 新 定义 的 succ 方法 中 ， 当 字符 串 不 包含 多 字 节 文字 时 ， 就 使 用 原 
有 的 succ 方法 (参见 图 6-19) 


alias original succ! succ! 
def succ! 
# end_regexp 是 匹配 字符 串 末 尾 的 "文字 " 
reg = end_regexp 
if $KCODE != 'NONE' && self =~ reg 
succ_table = SUCC[$KCODE[0,1].downcase] 
begin 
self[-1] += succ_ table[self[-1]] 
self[-2] += 1 if self[-1] == 0 
end while self !~ reg 
Sej] 
else 
original_ succ! 


str = self.dup 
str.succ! or str 
end 


图 6-19 ”succ 方法 的 实现 
6.2.5 ”猴子 补丁 的 几 点 问题 


如 上 所 述 ， 开 放 类 和 猴子 补丁 证 我 们 很 方便 地 做 各 种 操作 ， 但 是 它们 
也 有 缺点 。 猴 子 补丁 动态 地 对 类 进行 变更 ， 从 而 对 程序 整体 产生 了 影 
啊 。 特 别 是 像 mathn 这 样 的 库 是 非常 危险 的 ， 因 为 它 大 幅度 地 改变 了 
已 有 类 的 行为 。 程 序 代码 本 来 以 为 整数 相 除 会 返回 整数 ， 可 十 如 采 在 
某 一 状态 下 包含 了 mathn ， 很 难 想到 它 吏 是 造成 程序 错误 的 原因 。 到 
现在 为 止 都 是 正 第 执行 的 程序 ， 只 因为 一 个 "require" 而 发 生 了 错误 。 
另外 ， 在 多 个 库 都 同时 使 用 开放 类 对 已 有 类 进行 变更 时 ， 如 果 相 互 之 
间 发 生 矛 盾 则 没有 办 法 可 以 避免 。 


考虑 到 这 些 优 缺 点 ， 想 要 正确 使 用 开放 类 ， 安 全 地 打 猴 子 补 丁 ， 必 须 
遵守 以 下 几 条 规则 。 


基本 上 只 是 追加 功能 

对 类 退 加 新 方法 不 会 让 已 有 的 程序 无 法 执行 。 使 用 开放 类 时 ， 主 要 做 
不 容易 导致 问题 的 功能 追加 会 更 保险 。 做 功能 妃 加 时 ， 如 有 果 发 生 名 称 
重复 时 会 造成 麻烦 ， 在 选择 追加 的 方法 名 时 需要 慎重 。 

进行 功能 变更 时 要 慎重 ， 尽 可 能 小 规模 

像 mathn 那样 有 本 质 部 分 的 功能 变更 可 能 导致 预想 不 到 的 副作用 。 
jcode 将 所 有 的 字符 种 处 理 都 蔡 换 成 以 文字 单位 来 进行 ， 如 果 整 体 程 
序 中 有 某 处 期 望 的 是 字 市 单位 的 处 理 ， 则 会 引起 误 操 作 。 


利用 开放 类 对 已 有 的 方法 进行 替换 时 ， 增 加 可 选 参数 ， 或 是 只 在 特定 
的 情况 下 进行 变更 ， 在 一 定 程度 上 保持 兼容 性 的 变更 会 更 保险 。 
小 心 相 互 作用 

开放 类 ， 和 继承 、 导 入 等 其 他 处 理 方式 相 比 独立 性 较 低 ， 相 互 之 间 功 
能 容易 受 影响 ， 所 以 一 定 要 刘 慎 使 用 。 奶 加 的 功能 如 条 名 称 发 生 剖 
突 ， 两 边 都 在 使 用 的 话 ， 没 有 解决 这 种 矛盾 的 办 法 。 

如 条 要 使 用 多 个 利用 了 开放 类 的 库 ， 则 必须 慎重 考虑 这 些 库 之 间 是 否 
互相 矛盾 。 


6.2.6 ”其 他 办 法 

猴子 补丁 能 够 不 改变 源 代 码 进行 动态 修正 ， 这 种 灵活 性 是 显示 动态 语 
言 柔 软 性 和 扩展 性 的 好 例子 。 可 是 ， 实 现 猴 子 补丁 的 Ruby 开放 类 有 
时 功能 过 强 ， 可 能 会 引起 问题 。 


其 他 语言 中 用 更 易 欣 制 的 形式 也 能 实现 猴子 补 本 。 这 里 ， 介 绍 几 种 其 
他 的 办 法 。 


C# 


C# 是 微软 的 .NET 的 中 心 语言 ， 其 热门 表现 目前 还 在 不 断 改进 。C# 使 
用 部 分 类 和 扩展 方法 来 实现 开放 类 和 猴子 补丁 的 功能 。 

部 分 类 是 指 可 以 在 多 个 场所 进行 分 散 定义 的 类 。 将 类 的 定义 分 散在 多 
个 场所 ， 从 而 实现 了 相当 于 开放 类 的 功能 。 不 过 ， 和 开放 类 相 比 较 ， 
C# 有 以 下 固有 的 限制 : 


1. 所 有 的 部 分 类 必须 加 上 partial 这 样 的 专用 语 (不 能 在 事后 对 
任意 的 类 进行 扩展 ) : 
2. 部 分 类 之 间 不 允许 有 矛盾 (类 不 能 够 被 覆盖 ) 。 
可 以 说 ， 在 开放 类 实现 的 各 种 功能 中 ， 部 分 类 实现 了 可 以 把 类 定义 分 
做 开 来 这 一 特殊 功能 。 
而 扩展 方法 是 指 允 许 和 调用 普通 方法 一 样 调 用 的 静态 方法 (参见 图 6- 
20) 。 带 this 关键 词 的 static 方法 就 好 像 类 中 的 方法 一 样 被 调 
用 。 


class StringExtensions 


public static string SwapCase(this string s) 


class ExtensionMethodTest 
static void Main(string[] args) 


string s = "Hello World!"; 
Console.write(s.SwapCase()); 


图 6-20 ”C# 的 扩展 方法 
不 过 ， 扩 展 方 法 不 能 给 已 有 的 方法 加 钧 子 ， 或 是 进行 奉 换 ， 因 为 狭义 


人 
,| J ° 


CommonLisp 


CommonLisp 提供 了 叫 CLOS (CommonLisp Object System) 的 面向 对 
象 功能 ， 它 实现 了 和 其 他 面 问 对 象 语言 风格 不 同 的 面 回 对 象 编 程 。 
Lisp 是 本 来 瓯 具备 开放 类 功能 的 语言 ， 加 上 它 之 后 ，CLOS 具备 了 “ 方 
法 结合 ”的 功能 ， 可 以 实现 方法 的 替换 和 钩子 功能 (参见 图 6-21) 。 


(defclass example-class () ;; 没有 父 类 
()) ;; 没有 实例 变量 


(defmethod do-something((param example-class)) 
(print "do something!")) 


(defmethod do-something :before((param example-class)) 
(print "enter do-something")) 


(defmethod do-something :after((param example-class)) 
(print "exit do-something")) 


(setq e (make-instance 'example-class')) 
(do-something e) 

;;; 输出 : 

;;; "Enter do-something" 

;;; "do something!" 

;;; "exit do-something" 


图 6-21 使 用 CommonLisp 的 CLOS 功能 的 代码 示例 


在 方法 的 名 字 后 面 加 上 “:before” 或 “:after”" 成 为 了 钩子 。 在 这 个 例子 中 
虽然 没有 出 现 ， 还 有 一 个 “:around” 的 指定 ， 实 现 方法 的 替换 。 

前 面 说 到 Lisp 的 面 癌 对象 功能 实现 风格 不 同 。 看 了 图 6-21 的 程序 之 
后 ， 对 类 和 方法 的 定义 及 调用 等 哪些 地 方 可 以 称 为 面 回 对 象 ， 很 多 人 
可 能 很 困惑 。 


6-18 的 程序 调用 方法 用 了 下 面 的 方式 : 


(do-something e) 


相对 于 Ruby 使 用 的 方式 : 


e.do-something 


在 调用 方法 的 印象 上 确实 比较 弱 ， 好 像 只 是 在 调用 范 数 。 


但 事实 上 ，do-something 这 个 函数 (代表 了 多 个 方法 的 函数 ， 可 称 
为 泛 型 函数 ) 根据 参数 类 的 不 同 选 择 适 当 的 方法 。 不 管 看 起 来 给 人 的 
印象 如 何 ， 从 实际 的 行为 来 看 ， 它 和 Ruby 语句 中 把 操作 对 象 放 在 前 
面 的 方式 是 一 样 的。 


这 种 写法 接 下 来 还 有 别 的 舍 义 。 和 把 操作 对 象 前 置 的 形式 不 同 ， 函 数 
形式 不 区 分 操作 对 象 和 其 他 参数 ， 因 此 ，CommonLisp 在 函数 有 多 个 
参数 时 ， 根 据 参 数 类 的 组 合 而 确定 不 同 的 方法 。 像 这 样 根据 多 个 类 的 
组 合 而 调用 方法 称 为 多 重 方法 (multi-method) ， 它 是 CommonLisp 面 
问 对 象 编程 的 特点 。 


一 般 的 面 问 对象 语言 ， 方 法 从 属于 类 ， 选 择 方法 名 来 调用 。 而 
CommonLisp 的 方法 从 属于 名 字 ( 泛 型 钞 数 ) ， 由 参数 的 类 ( 群 ) 来 
选择 。 我 们 有 趣 地 看 到 ， 同 样 是 面向 对 象 编 程 ， 不 同 的 侧面 束 像 是 纵 
切 和 横 切 下 去 那样 ， 呈 现 的 面貌 很 不 一 样 。 


Lisp 的 面向 对 象 功能 在 较 早 阶段 束 和 Smalltalk 分 离开 ， 独 立 进行 了 发 
展 进化 。 


面向 方面 


面向 方面 的 目的 是 要 分 离 出 横向 关联 的 共通 侧面 。 面 向 对 象 语言 把 程 
序 分 割 成 对 象 单位 ， 但 世上 并 不 古 所 有 的 共通 侧面 都 能 分 割 成 对 象 单 
位 。 横 向 关联 涉及 多 个 对 象 的 处 理 ， 共 通 侧 面 虽然 只 有 一 个 ， 却 断 断 
续 续 地 分 散 到 多 个 类 中 。 


比如 ， 关 于 “记录 日 志 ” 这 个 处 理 ， 想 要 记录 日 志 的 类 有 多 个 ， 那 么 在 
这 个 或 那个 类 里 都 要 有 记录 日 志 的 处 理 。 本 来 是 想 在 一 个 地 方 集中 处 
理 所 关 心 的 事情 ， 但 因为 程序 构成 已 经 个 分 割 成 类 的 形式 ， 横 跨 了 多 
个 类 的 这 个 方面 无 法 总 结 在 一 起 。 


像 这 样 横 跨 了 多 个 类 的 共同 关注 的 事 就 是 方面 (aspect) 。 字 典 上 
aspect 的 解释 有 “外 观 、 样 子 、 局 面 、 见 解 等 ”。 按 照 关 心 的 事 来 划 

分 、 记 述 并 组 合 而 成 的 程序 称 为 面向 方面 编程 。 支 持 这 种 记述 的 语言 
称 为 面向 方面 的 语言 。 

从 可 以 直接 记述 这 方面 的 意义 来 看 ，Ruby 不 是 面向 方面 语言 。 但 是 ， 
Ruby 非常 灵活 ， 利 用 它 的 反射 功能 〈 操 作 程 序 本 身 的 功能 ) 可 以 实现 
面向 方面 编程 的 库 ， 也 就 是 AspectR。AspectR 是 Avi Bryant 和 
Robert Feldt 的 作品 。 


使 用 AspectR 的 最 初 的 例子 如 图 6-22 所 示 。 


require 'aspectr' 


打 猴 子 补丁 的 对 象 类 ( 同 图 6-15) 


class ExampleClass < Object 


打 补丁 的 对 象 方法 


作 某 种 处 理 , 比如 输出 


"do_something!" 


class Logger < AspectR::Aspect 
def log_enter (method, object, exitstatus, *args) 
P "enter #{method}" 
end 


def log_exit (method, object, exitstatus, *args) 
P "exit #{method}" 
end 
end 


Logger .new .wrap (ExampleClass, :log_enter, :log_exit, 
:do_something) 


e€ = ExampleClass .new 生成 ExampleClass 对 象 
e.do_somethim 
# 输出 二 调用 do_something 方法 


# "enter do_something" 
# "do_something!™" 
# "exit do_ something" 


图 6-22 ”使 用 AspectR 的 记录 输出 


方面 定义 为 AspectR: :Aspect 的 子 类 。 在 这 个 类 中 定义 作为 钧 子 的 
方法 。 本 例 中 定义 了 在 执行 方法 之 前 调用 的 10g_enter 方法 和 执行 

方法 之 后 调用 的 10g_exit 方法 。 这 样 的 方法 称 为 通知 (advice 

) 。 在 前 面 执行 的 称 前 置 通 知 (before advice ) ， 后 面 执行 的 称 

后 置 通 知 (after advice ) 。CommonLisp 有 环绕 执行 方法 本 身 的 
环绕 通知 (around advice ) ， 但 是 AspectR 没有。 


调用 AspectR 的 advice 方法 的 参数 如 下 : 


终止 信息 ( 返 、 
递 给 原 方法 的 参 沁 


洋 浴 嵌 尖 


Spy 
N 
Hl 


ODP 


第 
第 
第 
第 


before advice 在 方法 执行 前 调用 ， 没 有 终止 信息 。 它 的 值 总 是 
Nil] 。 
为 了 使 用 像 这样 定 义 的 方面 ， 必 须 把 它 和 实际 的 类 连接 起 来 。 于 是 移 


生成 方面 类 的 对 象 ， 调 出 wrap 方法 把 类 和 方面 连接 起 来 。wrap 方 
法 的 参数 如 下 。 


类 
before advice 名 (或 是 ni1l) 
after advice 名 (或 是 nil) 


钩子 对 象 的 方法 名 


避 避 吉 如 


数 
数 
数 
数 


参 
参 
参 
参数 之 后 


1 
2 
3 
4 


6-18 的 程序 只 挂 了 一 种 钩子 ， 所 以 生成 方面 的 对 象 之 后 马上 就 调用 
wrap 方法 。 如 果 定 义 了 多 个 钩子 ， 或 者 为 了 能 在 之 后 卸 下 钧 子 ， 就 
需要 把 方面 对 象 保存 在 某 个 变量 中 。 图 6-15 的 程序 和 图 6-22 的 程序 
动作 都 是 完全 相同 的 。 需 要 注意 的 是 ，ExampleClass 类 的 定义 部 分 
只 记述 『 了 ExampleClass 的 处 理 本 号 ， 把 记录 日 志 这 样 所 关心 的 事 
完全 分 离 到 Logger 类 里 了 。 如 果 某 一 天 不 需要 记录 日 志 的 时 候 ， 不 
管 有 多 少 方法 曾经 记录 日 志 ， 只 要 把 给 ExampleClass 类 赋予 记录 
日 志 功 能 的 相关 行 删除 掉 ， 就 可 以 把 日 志 功 能 全 部 卸 除 了 “。 如 果 把 日 
志 功 能 分 散在 各 个 方法 中 的 话 ， 御 除 的 时 候 就 会 很 麻烦 了 。 


6.2.7 “Ruby on Rails 和 开放 类 


使 用 Ruby on Rails 之 后 ， 经 常会 发 现在 Rails 以 外 的 Ruby 程序 中 不 怎 
么 见得 到 的 表现 方式 。 比 如 下 面 的 代码 。 


expire = 2.weeks.ago 


| 


此 代码 照 一 般 的 Ruby 程序 理解 的 话 会 是 : 对 2 这 个 整数 对 象 调用 
weeks 方法 ， 对 返回 值 再 调用 ago 方法 ， 把 它 的 返回 值 赋 给 变量 
expire 。 这 么 解释 好 像 是 没有 疑问 。 但 问题 是 ，Ruby 标准 的 整数 对 
象 中 没有 定义 叫 weeks 的 方法 。 


实际 上 ，weeks 是 Rails 的 构成 部 分 之 一 的 ActiveSupport 库 提 供 
的 方法 。ActiveSupport 利用 Ruby 的 开放 类 功能 ， 对 Ruby 标准 提 
供 的 类 大 胆 地 追加 了 功能 。weeks 方法 是 其 中 之 一 。 


要 点 在 于 ，ActiveSupport 库 像 打 猴 子 补 本 那样 对 整数 类 追加 了 
weeks 、ago 这 些 方法 。 这 种 大 胆 性 可 以 说 正 是 Ruby on Rails 的 重要 
特点 。 

本 人 从 以 前 就 开始 使 用 Ruby， 这 种 大 胆 让 我 感觉 有 点 尝 。 而 对 于 从 
Rails 开始 使 用 Ruby 的 人 来 说 ， 反 过 来 ， 没 有 这 类 的 方法 可 能 就 觉得 
不 好 用 吧 。 像 前 面 提 到 的 这 些 ， 标 准 库 提供 的 功能 对 于 程序 语言 给 人 
的 印象 会 产生 很 大 影响 。 比 如 利用 了 ActiveSupport 从 Rails 入 门 
到 Ruby 的 人 和 直接 从 Ruby 入 门 的 人 ， 尽 管 是 对 同样 的 Ruby， 各 人 
的 印象 也 会 有 很 大 不 同 。 


下 面 ， 概 括 一 下 ActiveSupport 追加 的 功能 以 及 它们 的 使 用 方法 。 
6.2.8 ”ActiveSupport 带 来 的 扩展 


ActiveSupport 库 对 于 Ruby 语言 提供 了 各 种 各 样 的 扩展 。 
ActiveSupport 库 整 体 具有 相当 的 规模 ， 先 来 对 追加 的 功能 按照 日 
的 不 同 作 个 大 致 的 分 类 。 


首先 ， 看 看 时 间 和 时 刻 的 操作 。ActiveSupport 库 对 于 Numeric 
、Time 等 类 追加 了 时 间 和 时 刻 的 操作 ， 比 如 前 面 说 的 “2.weeks.ago”。 


具体 来 说 ， 定 义 了 表 6-5 中 的 那些 方法 3 。 
3 表 6-5 中 的 seconds 等 复数 名 词 也 定义 了 单数 名 词 的 别名 。 


表 6-5 ”ActiveSupport 库 中 关于 时 间 的 方法 


方法 


ago(t=Time,now) 和 开始 过 去 的 n 秘 


却 
要 
X 

全 
re 
ea 
SS 
S 


三 
[gy 
(0) 
入 
[0 


until(t=Time.now) 


since(t=Time.now) 从 现在 起 未 


from_now(t=Time.now) since 的 别名 


方法 名 
days_in_nonth 
ehange( options) 
advanceoptions) 
agolseo) 
since(sec) 
months_ago(n) 
nonths_sinoe(n) 
years_ago(n) 


last_month 


next_month 下 个 月 


eam or ert | OE 


next_week 下 周 
midnight 当天 的 00:00 


beginning_of_quarter y 
beginning_of_year 年 的 


end_of_month 当 | 局 


Se | 
rw | 


2 

18000 
2592000 
31557600 


看 起 来 是 返回 了 相应 时 间 的 秒 数 。1 个 月 是 按 30 天 ，1 年 是 按 365.25 
天 计算 的 。 


Time 类 的 change 方法 和 advance 方法 的 参数 比较 复杂 ， 在 这 里 解 
释 一 下 。change 方法 的 参数 是 指定 了 年 (:year ) 、 月 (:month 

) 、 日 (:mday ) 、 时 (:hour) 、 分 (:min) 、 秒 (:sec) 以 
及 微 秒 (:usec ) 的 哈 希 表 。 时 刻 的 各 要 素 通 过 名 字 来 指定 ， 比 较 方 
便 。 未 指定 的 要 素 按 本 来 的 时 刻 来 算 。 


例如 ，2009 年 的 今天 ， 以 下 语句 会 获取 和 今天 同月 、 同 日 、 同 时 刻 的 
Time 对 象 。 


Time.now.change( :year=>2009 ) 


advance 方法 也 是 同样 接受 可 省 略 的 哈 硕 表 参 数 ， 哈 硕 表 中 可 以 指 
定 “ :years”、“:months”,“:days”， 各 自 代 表 年 、 月 、 日 的 增 
量 。 想 获取 1 年 零 3 个 月 之 后 的 时 刻 ， 写 法 如 下 : 


Time.now.advance( :years=>1, :months=>3) 


对 于 时 刻 的 操作 会 频繁 出 现 ， 能 够 像 英 语 似 的 表达 方式 2.weeks.ago 也 
许 能 让 人 高 兴 。 虽 然 这 么 说 ， 但 对 于 整数 类 导入 这 样 的 方法 感觉 过 于 
大 胆 ， 现 在 还 未 真正 导入 到 Ruby 中 。 


这 样 的 “冒险 ?能 在 库 的 层次 上 推进 ， 可 以 说 是 开放 类 的 威力 吧 。 
6.2.9” 字 节 单 位 系列 


计算 机 的 世界 里 经 芝 碰 到 千 、 兆 、 百 兆 等 单位 。 日 常生 活 中 虽然 已 经 
熟知 “ 千 是 1000 倍 ? 的 意思 ， 但 对 于 百 兆 是 多 少 倍 可 能 有 些 人 殉 不 能 马 
上 反应 过 来 。 特 别 是 ， 计 算 机 世界 以 二 进 数 为 度量 单位 ， 千 不 是 1000 
倍 而 是 1024 倍 4 的 说 法 ， 听 起 来 殉 更 奇怪 了 。 


4IEC (国际 电工 委员 会 ) 在 1999 年 规定 ， 为 了 和 ISO 单位 明确 区 
再 1024 倍 称 mebi， 再 1024 倍 称 gibi。 不 过 ， 此 规定 未 获得 推广 。 


，1024 倍 称 为 kibi， 


人 


ActiveSupport 能 够 减轻 这 样 的 麻烦 ， 导 入 了 一 些 方法 (参见 表 6-6) 5 
可 以 容许 下 面 的 计算 ; 


45.kilobytes + 2.6.megabytes 


5 同样 准备 了 kilobyte 这 样 的 单数 别名 。 


表 6-6 ”向 Numeric 类 追加 的 字 节 
单位 系列 方法 


kilobytes 1024 倍 (210 


megabytes 


a 


gigabytes 


terabytes 


Dt 


petabytes 


Kk 


exabytes 


DK 


6.2.10 ”复数 形 和 序数 


日 语 里 单数 复数 没有 什么 区 别 ， 但 是 英语 里 有 明确 的 区 分 。 因 此 ， 我 
们 追加 了 专用 的 方法 。 比 如 ，pluralize 方法 可 以 让 单数 变 成 复 
数 。 

"box".pluralize # => boxes 


"ox".pluralize # => oxen 
"fish".pluralize # => fish 


也 有 方法 用 来 操作 多 个 单词 连 在 一 起 的 符号 (参见 图 6-23) 。 


"fish_burger".camelize # => "FishBurger" 
"SoapDish" .underscore # => "soap_dish" 


图 6-23 ”操作 复数 单词 的 方法 举例 
对 于 整数 妃 加 了 序数 方法 : 


1.ordinalize # => "1st” 
3.0rdinalize # => "3rd” 


4.ordinalize # => "4th” 


像 这 样 对 名 字 进 行 操作 的 方法 在 英语 圈 可 能 会 受 欢 迎 。 但 Ruby 是 在 
日 本 开发 的 ， 对 导入 这 种 以 英语 为 特定 语言 的 语法 操作 的 方法 有 抵触 


感 。 不 过 像 这 种 以 库 的 形式 对 方法 进行 追加 也 许 效果 会 更 好 。 
6.2.11 ”大 规模 开发 和 Ruby 


经 常 听 到 “Ruby 不 适用 于 大 规模 开发 ”这 样 的 说 法 。 这 当然 不 是 毫 无 根 
据 的 说 法 ， 有 它 的 道理 。Ruby 做 大 规模 开发 可 能 会 出 现 的 问题 主要 
有 以 下 3 个 方面 。 


编译 时 不 作 类 型 检查 


Ruby 不 实际 执行 的 话 束 检查 不 出 类 型 的 不 一 致 。 像 Java 那样 在 编译 
时 束 挛 格 作 类 型 检查 一 定 会 被 得 出 来 的 错误 ， 有 可 能 在 Ruby 中 束 被 
漏 摊 了。 因此 有 人 认为 ， 大 规模 程序 的 可 靠 性 束 下 降 了 。 


但 是 再 细 一 想 ， 程 序 的 错误 并 不 都 是 因为 类 型 不 匹配 造成 的 。 当 然 ， 
类 型 不 匹配 是 较 容 易 发 现 的 错误 。Ruby 在 执行 时 作 类 型 检查 ， 也 就 是 
说 执行 时 会 严格 检查 类 型 。 大 规模 程序 为 了 保证 可 靠 性 一 定 会 有 严格 
的 测试 程序 。 如 打 作 了 严格 的 测试 ， 在 编译 时 作 类 型 检查 的 优点 束 不 
像 所 说 的 那么 重要 了 。 


没有 包 


Java 对 于 构成 库 的 类 和 文件 有 独立 的 包 ， 要 想 具备 某 种 功能 ， 必 须 明 
确 地 进行 jmport 操作 。 而 Ruby 古 不 具备 这 种 功能 的 。 所 以 ， 库 定 
义 的 类 和 模块 名 是 全 局 的 ， 从 任何 地 方 都 可 以 引用 。 因 此 ， 可 以 说 名 
称 重复 的 危险 性 很 大 。 


不 过 ，Ruby 有 人 处 理 命名 空间 的 类 或 模块 。 只 要 把 库 适当 地 组 织 好 ， 发 
生 名 称 问 题 的 危险 性 也 不 见得 会 有 那么 高 吧 。 


但 在 Ruby 中 ， 当 互相 独立 开发 的 库 次 巧 定 义 了 同名 的 类 时 ， 问 题 丈 
没有 那么 容易 解决 了 。 在 这 种 情况 下 ， 有 必要 对 库 的 源 代 码 进行 修 
正 。 这 样 考虑 的 话 ， 和 危险 性 不 能 说 是 零 ， 而 Java 的 包 在 这 种 情况 下 丈 
能 解决 问题 ， 所 以 可 能 觉得 更 好 。 


存在 开放 类 


最 后 就 是 本 章 说 明 的 开放 类 。 已 经 讲述 过 ， 开 放 类 有 这 样 的 缺点 : 各 
和 目 独立 的 库 发 生 互相 矛盾 的 变更 时 ， 问 题 不 能 人 稍 单 解决 。 这 也 可 能 在 
大 规模 开发 时 引发 问题 。 

6.2.12 ”信赖 性 模型 


SR 0 
HH o 


编译 时 作 类 型 检查 能 发 挥 重 要 作用 ， 意 味 着 不 能 充分 执行 单元 测试 。 
实际 上 ， 对 于 规模 很 大 的 程序 整体 作 严 格 的 测试 ， 光 测试 本 身 就 要 花 
好 多 天 ， 有 可 能 在 规定 时 间 内 都 没 办 法 完成 。 的 确 ， 像 这 一 类 的 项 目 
不 推荐 使 用 Ruby。 


因为 不 存在 包 而 出 问题 或 者 因为 开放 类 会 出 问题 ， 这 可 能 是 因为 项 目 
的 构成 要 素 之 间 不 太 可 能 相互 调整 。 如 果 把 运用 规则 确定 好 ， 对 各 个 
子 项 目 把 模块 分 层次 控制 好 的 话 ， 应 该 束 没 有 问题 。 如 果 这 都 做 不 到 
的 话 ， 互 相 之 间 应 该 就 是 关系 很 坏 吧 。 或 者 说 各 个 子 项 目 都 是 各 目 随 
便 使 用 外 部 库 ， 所 以 担心 发 生 同名 冲突 。 这 样 的 项 目 也 不 适合 
Ruby ° 


Ruby 的 这 3 个 方面 ， 依 赖 于 Ruby 和 用 户 ， 或 者 项 目的 各 成 员 间 的 “ 信 
赖 ”关系 。 也 束 是 所 谓 的 性 善 说 。 用 户 不 会 故意 做 坏事 情 ， 如 有 果 发 生 问 
题 的 话 会 互相 帮助 解决 ， 这 是 Ruby 所 采取 的 姿态 。 


和 和 它 相 对 的 是 性 恶 说 ， 即 融 不 应 该 发 生 这 些 问 题 。 不 能 说 哪 一 边 更 粳 
糕 ， 而 是 信赖 性 和 灵活 性 的 权衡 受 了 。 


总 而 言 之 ， 像 一 部 分 人 所 说 的 那样 ， 在 某 种 类 型 的 大 规模 开发 中 ， 
Ruby 的 性 质 会 造成 问题 ， 或 者 说 造成 问题 时 解决 起 来 不 像 其 他 语言 那 
么 容易 ， 这 种 现象 是 现实 中 可 能 存在 的 。 如 采 认 为 这 些 是 问题 的 话 ， 
可 能 不 使 用 Ruby 会 更 好 。 但 是 ， 到 现在 为 止 我 们 看 到 的 情况 表明 ， 
会 发 生 那 种 问题 的 大 规模 开发 本 来 殉 绝 不 是 好 的 开发 状况 。 在 我 看 
来 ， 首 移 要 做 的 ， 当 然 是 把 项 目的 信赖 关系 改善 到 可 以 使 用 Ruby 的 
程度 。 就 算 最 后 没 使 用 Ruby， 这 也 是 应 该 移 做 到 的 事情 。 


6.2.13 ”猴子 补丁 的 未 来 


猴子 补丁 虽然 有 一 定 的 危险 性 ， 但 有 次 也 有 利 ， 它 也 提供 了 方便 性 、 
扩展 性 和 灵活 性 。 像 这 样 危险 和 威力 并 存 的 情况 ， 让 人 想起 之 前 的 
goto 语句 。 以 前 曾经 是 程序 语言 的 标准 控制 结构 的 goto 语句 ， 随 
着 结构 化 编程 的 发 展 ， 被 更 安全 的 控制 结构 取代 了 。 与 此 相似 ， 开 放 
类 和 利用 它 的 猴子 补丁 ， 将 来 也 可 能 会 被 更 安全 的 、 由 特定 目的 而 特 
制 的 功能 群 而 奉 代 。 


另外 ， 虽 然 本 节 未 作 介绍 ， 但 为 了 避免 因为 开放 类 而 改变 整体 状态 的 
问题 ， 对 于 selector namespace 和 class box 的 研究 也 快要 实 
用 化 了 。 


像 这 样 “驯服 开放 类 ?十 将 来 Ruby 研究 的 重大 课题 。Ruby 2.0 会 对 这 一 
领域 做 某 种 程度 的 实质 探索 。 


Ruby on Rails 的 秘密 


本 章 介 绍 的 Ruby on Rails 是 在 2004 年 问世 的 Web 应 用 框架 ， 因 其 
生产 效率 高 而 成 为 近年 来 推进 Ruby 执行 的 原动力 。 


本 人 基本 上 没有 使 用 Rails 的 经 验 ， 所 以 本 划 内 容 没 有 基于 Rails 本 
号 ， 而 是 从 Ruby 的 观点 讲解 了 Rails 使 用 的 特征 性 技术 。 我 不 擅长 
Web 类 的 编程 。 


Ruby on Rails 是 2004 年 丹麦 程序 员 David Heinemeier Hansson 开发 
的 。 记 不 住 他 名 字 的 人 人 很多， 经常 称 他 为 DHH。 他 本 来 是 PHP 的 
程序 员 ， 虽 然 对 Ruby 感 兴趣 ， 但 在 实际 的 工作 中 并 没有 使 用 。 
DHH 为 美国 的 37signals 公司 在 目 己 家 里 上 班 ， 那 个 时 候 使 用 的 是 
叫 Basecamp 的 项 目 管理 系统 ， 因 为 它 的 复杂 性 而 感到 了 PHP 的 局 
限 。 于 是 ， 他 不 顾 周 围 反对 而 转移 到 Ruby， 结 末 成 束 了 Ruby on 
Rails。 


经 常 作为 Rails 的 特征 而 介绍 的 是 DRY (Don't Repeat Yourself) 和 
CoC (Convention over Configuration， 约 定 胜 于 配置 ) 。DRY 是 避 

免 反 复 (重复 ) 从 而 提高 生产 效率 的 原则 ，CoC 是 简化 配置 ， 重 视 
约定 ， 在 一 般 情况 下 ， 这 一 原则 排除 明确 的 配置 ， 从 而 使 程序 变 得 
简洁 。 这 些 性 质 都 是 在 应 用 平台 上 非常 受 欢 迎 的 ， 所 以 在 Rails 之 

后 也 有 很 多 Web 应 用 框架 采用 这 些 原则 。 


可 是 ,决定 Rails 生产 效率 的 并 不 仅仅 是 DRY 或 是 CoC， 而 主要 是 
利用 了 Ruby 的 元 编程 功能 ， 几 乎 可 以 说 达到 了 恶性 滥用 的 程度 。 
动态 定义 方法 ， 用 猴子 补丁 来 若 换 类 ， 人 简直 是 无 所 不 能 。 可 是 ， 正 
是 因为 这 样 的 彻底 发 挥 才 实 现 了 Rails 的 强大 功能 ， 而 且 使 之 成 为 
可 能 的 正定 Ruby 的 灵活 性 和 兼容 并 著 的 宽大 胸怀 。 所 以 ， 本 书 没 
有 说 明 Rails 本 喘 的 使 用 方法 ， 而 是 着 力 于 说 明了 之 所 以 让 Rails 成 
为 Rails 的 Ruby 功能 和 编程 技巧 。 当 然 ， 原因 之 一 也 是 我 本 人 不 擅 
长 Web 应 用 开发 。 


天 于 Rails 还 有 一 个 谜团 ， 即 为 什么 起 名 为 “Ruby on Rails” 呢 ? 一般 
的 软件 名 字 都 是 1 个 单词 或 是 “形容 词 + 名 词 ”， 很 少见 到 *A on 
B” 这 种 形式 。 退 一 步 讲 ， 怎 么 说 也 应 该 是 Ruby 语言 在 下 才 对 啊 。 
以 前 就 想见 到 DHH 时 直接 问 他 ， 不 过 一 直 没 有 机 会 。 上 次 见面 时 
又 完全 臣 记 间 . 了 8 


第 7 章 文字 编码 
7.1 文字 编码 的 种 类 


计算 机 能 够 处 理 图 像 、 动 画 以 及 各 种 应 用 程序 固有 的 、 多 种 多 样 的 数 
据 。 但 是 从 CPU 的 层次 来 看 ， 计 算 机 所 处 理 的 各 种 数据 都 是 用 比特 
ON/OFF 所 表现 的 二 进 制 数字 。 


初期 计算 机 主要 用 于 炮弹 的 弹道 计算 等 ， 所 以 专门 针对 数值 计算 而 做 
的 特殊 设计 也 当然 是 最 为 理想 的 。 但 现在 的 计算 机 纯粹 用 于 数值 计算 
的 已 经 越 来 越 少 了 。 像 天 气 预报 、 结 构 计 算 或 科学 实验 等 的 HPC (高 
性 能 计算 ) 都 由 超级 计算 机 或 是 超级 并 行 计算 机 来 进行 数值 计算 。 但 
一 般 放 算 机 所 处 理 的 数据 ， 绝 大 部 分 都 是 以 某 种 文字 形式 出 现 的 文本 


数据 


7.1.1 早期 的 文字 编码 


为 了 让 本 来 只 能 表示 二 进 制 数 的 计算 机 能 够 处 理 文字 ， 束 必须 将 文字 
变换 为 相应 的 数 子 。 这 种 对 应 于 文子 的 数值 束 称 为 文子 编码 。 


由 于 历史 的 原因 ， 文 字 编 码 遇 到 过 各 种 各 样 的 困难 和 谍 题 。 


初期 的 计算 机 是 在 英语 国家 发 展 起 来 的 ， 计 算 机 能 处 理 的 文字 也 是 从 
英文 字母 开始 的 。 英 文字 母 只 有 A 到 Z 这 26 个 字母 ， 没 有 元 音 变 音 

(o 上 加 两 点 ) 、 声 调 (e 上 加 声调 ) 这 些 东西 ， 处 理 起 来 比较 方便 ， 
这 也 许 与 初期 计算 机 的 发 展 也 有 点 关系 吧 。 


表现 英文 的 文字 字符 集 的 历史 很 悠 人 和信， 其 中 有 代表 性 的 当 数 
1963~1964 年 设计 的 EBCDIC ( Extended Binary Coded Decimal 
Interchange Code) 和 1960 年 开始 制定 的 ASCII ( American Standard 
Code for Information Interchange) 。 


EBCDIC 由 美国 IBM 公司 定义 ， 主 要 用 于 大 型 机 及 办 公用 计算 机 ( 据 
说 有 一 部 分 现在 还 在 用 ) 。 但 现在 EBCDIC 已 经 不 是 主流 ，ASCII 以 
及 受 其 影响 的 文字 编码 成 为 主流 。 


ASCII 码 由 7 位 二 进 制 数 构成 ， 可 以 表现 英文 字母 、 数 字 和 一 些 记 号 
($、&& 等 ) ， 共 128 个 字符 。 这 囊 来 的 一 个 好 处 就 是 ， 对 于 通信 单位 
的 字 节 (8 位 ) 来 说 ， 可 以 省 出 1 位 ， 用 于 附加 错误 检测 码 。 


这 在 通信 的 可 靠 性 还 很 低 的 时 代 ， 是 一 个 很 难能可贵 的 性 质 。7 位 

ASCII 码 能 够 将 把 整个 字 节 的 8 位 全 部 用 于 文字 编码 的 EBCDIC 码 淘 

状 ， 也 许 就 是 因为 这 个 原因 。 

表 7-1 及 表 7-2 是 ASCII 编码 表 。 比 如 ， 符 号 “*” 由 十 六 进 制 的 2A,， 十 

进 制 的 42 表示 。Hello! 这 个 字符 串 由 72、101、108、108、111、33 
(十 进 制 数 ) 来 表示 。 


表 7-1 ASCII 码 表 (十 六 进 制 ) 


7.1.2” 纸 带 与 文字 表现 


本 书 读者 中 ， 我 想 很 多 人 都 没 现场 看 过 1966 年 开始 放映 了 不 到 一 年 的 
一 代 《 超 人 》。 但 也 许 有 人 在 重播 的 电影 中 看 见 过 操作 员 一 边 看 着 
计算 机 吐出 的 市 孔 纸 带 ， 一 边 念 看 “ 东 泵 湾 出 现 怪 胃 ” 那 种 情景 。 


实际 上 纸 带 上 每 排 有 8 个 孔 ， 用 于 表示 一 个 字 节 (参见 图 7-1) 。 每 
排 的 图 案 代 表 一 个 字符 。 操 作 员 记 住 了 代表 每 个 字符 的 穿孔 图 案 ， 所 
以 也 就 能 读 出 纸 市 上 容 和 孔 图 案 所 代表 的 文字 内 容 。 不 要 说 终端 屏幕 ， 


ei 的 时 候 ， 纸 市 就 已 经 是 很 了 不 起 的 输出 设备 


举 


居 ， 而 是 用 于 运转 纸 带 。 


图 7-1 纸 带 扩大 图 。 一 列表 示 一 个 字 节 。 中 间 一 排 小 和 孔 不 是 用 于 
最 右边 一 列表 示 DEL 


而 且 ， 纸 市 还 可 以 通过 纸 市 读 入 规 再 度 读 入 计算 机 ， 所 以 纸 市 也 作为 
存储 硕 使 用 。 当 时 的 程序 大 多 是 通过 读 纸 冲 来 执行 的 。 一 旦 纸 帝 上 的 
程序 有 了 bug， 只 能 用 藤 刀 将 纸 市 味 唆 味 唆 榴 挥 ， 然 后 再 接 上 修正 的 
方法 ， 成 为 恰 如 字面 意义 上 的 补丁 。bug ( 忠 ) 这 个 词 ， 也 是 因为 计 
算 机 的 继 电 夯 中 夹 了 虫子 所 引起 的 事故 而 得 名 。 现 在 听 起 来 像 个 笑话 
的 事 ， 在 当时 却 是 很 平常 的 。 


1 patch 的 第 一 个 意思 是 打 补 丁 。 


还 有 一 个 老 故 事 。ASCII 码 中 ， 删 除 字 符 串 所 用 的 DEL 也 分 配 了 一 个 
编码 127 (十 六 进 制 的 0x7F) 。 这 是 为 什么 呢 ?0x7F 的 7 位 全 部 都 是 
ON， 用 DEL 履 盖 既 有 字符 时 ， 既 有 字符 就 全 部 消失 了 “。 如 果 不 知 道 

纸 带 的 故事 ， 这 也 是 很 难 想象 的 。 


7.1.3 ”文字 是 什么 


I 先 讲 解 一 下 关于 文字 编码 的 专用 语 ( 参 
和 朋 7-3) 。 


表 7-3 与 文字 编码 相关 的 专用 语 


个 别 文字 的 字形 
分 配 了 文字 编码 的 文字 的 集合 


分 配给 每 一 个 文字 的 编码 


文字 编码 方式 | 在 计算 机 上 表现 文字 编码 的 方式 


首先 是 文字 ， 这 相当 于 人 使 用 的 一 个 个 文字 ， 但 古事 情 并 没有 那么 简 
单 。 比 如 日 文 假 名 的 兢 字 ， 将 它 看 做 是 市 儿 点 的 单个 平 假名 ， 还 是 看 
做 平 假名 办 〈 一 个 字符 ) 再 加 上 浊 点 (一 个 字符 ) 的 两 个 字符 ， 要 视 
具体 情况 而 定 。 顺 便 说 一 下 ， 个 别 文子 的 字形 称 为 glyph* 。 


2 汉字 数据 的 “二 ”和 片 假名 的 “三 "字形 很 相似 ， 却 是 不 同 的 字 。 


我 不 知道 世上 到 底 有 多 少 文字 ， 但 要 算 上 古代 的 文字 ， 再 加 上 根据 需 
要 随意 创造 的 记号 、 图 画 和 符号 ， 这 个 数字 事实 上 是 无 限 的 ， 同 时 处 
理 所 有 文字 是 不 可 能 的 ， 所 以 有 必要 事先 规定 使 用 哪些 文字 。 这 些 文 
字 的 集合 就 称 为 字符 集 (Character set) 


比如 ， 刚 才 讲 解 的 ASCII 字符 集 ， 就 是 由 英文 的 大 写字 母 、 小 写字 

、 数字 及 特定 记号 所 组 成 的 字符 集 。 除 了 ASCII 字符 集 以 外 ， 还 有 
欧洲 语言 用 的 ISO8859， 日 语 用 的 JIS X 0208， 以 表现 多 语言 为 目的 
的 Unicode 等 字符 集 。 


字符 集中 ， 每 个 字符 都 分 配 一 个 编码 ， 这 称 为 字符 编码 。 


计算 机 上 仅仅 用 整数 值 来 表示 文字 编码 的 方式 称 为 文字 编码 方式 

(Character Encoding Scheme，CES) 。 一 个 字符 集 对 应 多 种 编码 方式 
并 不 稀奇 。 比 如 JIS X 0208 中 的 编码 方式 就 有 ISO-2022-JP， 
Shift_JIS，EUC-JP 等 儿 种 。 这 些 编码 方式 各 有 优 缺 点 ， 使 用 状况 也 不 
一 样 。 同 样 ， 对 于 Unicode， 也 有 UTF-8、UTF-16BE、UTF-16LE、 
UTF-32BE 和 UTF-32LE 等 编码 方式 。 


这 里 所 举 的 各 种 字符 集 和 文字 编码 方式 ， 后 面 还 要 个 别 说 明 。 
虽然 严格 来 讲 ， 文 字 编 码 是 指 分 配给 文字 的 数值 ， 但 一 般 的 对 话 中 ， 


使 用 文字 编码 这 个 词 的 时 候 ， 有 时 也 包含 字符 集 或 文字 编码 方式 等 意 
思 。 在 本 章 的 标题 文字 编码 中 也 隐 含 了 这 种 意思 。 


7.1.4 ”走向 英语 以 外 的 语言 (欧洲 篇 ) 


为 了 表现 英语 以 外 的 欧洲 语言 ，26 个 文字 通常 不 够 。 于 是 束 使 用 
ASCII 中 没有 使 用 的 第 8 位 来 表现 文字 。 第 8 位 一 用 ， 束 可 以 再 表现 128 
个 文字 。 虽 然 错误 检测 码 不 能 再 用 了 ， 但 由 于 信息 传送 的 可 靠 性 提高 
了 ， 好 像 也 没什么 问题 。 


即便 同 是 欧洲 语言 ， 各 语种 中 必须 要 加 的 字符 也 有 所 不 同 ， 于 是 就 为 
每 个 文化 圈定 义 了 不 同 的 文字 集 ， 文 字 集 之 间 切 换 使 用 ， 这 就 是 ISO 
8859。 现 在 ，ISO 8859 中 定义 了 16 种 文字 集 ， 列 于 表 7-4 中 。 


表 7-4 ISO 8859 的 构造 


所 六 
RR 
这 
Latin-3 土耳其 语 、 马 耳 他 语 、 
二 
Latin/Cyrillic 语 、 语 、 塞 尔 维 亚 语 和 
Latin/Arabic 阿拉 伯 语 
和 

冰岛 语 、 库 尔 德语 、 土 耳 其 语 


ISO8859-10 Latin-6 (Latin-4 重 新 定义 ) 爱沙尼亚 语 、 拉 脱 维 亚 语 、 立 陶 


五 言 六 ， WS 
ISO8859-12 Latin/Devanagari 语言 (1997 年 中 断定 义 ， 成 为 废 


到 本 关 的 机 下 和 话 、 布 大 省 
Latin-9 ( 改 订 Latin-1) 欧元 货币 符 、 法 语 辅助 符 等 
Latin-10 阿尔 巴 尼 亚 语 、 意 大 利 语 、 罗 马 尼 亚 i 


ISO 8859 所 履 盖 的 语言 ， 不 管 哪 一 种 ， 其 字符 数 都 在 256 个 以 下 ， 只 
要 将 文字 编码 以 字 节 为 单位 排列 起 来 就 可 以 表现 了 。 所 以 这 些 语言 的 
字符 编码 方式 跟 ASCII 一 样 是 字 节 列 。 


这 样 欧洲 圈 的 问题 束 大 体 解决 了 。 但 有 些 情况 下 ， 想 同时 使 用 德语 
(第 一 部 分 ) 和 俄语 (第 五 部 分 等 多 种 文字 集 。 这 样 ， 束 需要 有 在 
同一 篇 文章 中 切换 不 同文 字 集 的 机 制 。 


定义 这 种 机 制 的 ， 就 是 ISO2022。ISO2022 是 一 个 规模 庞大 而 复杂 的 
规范 ， 这 里 不 再 详 述 。 基 本 上 是 以 EScC 文字 (0x1b) 为 开头 的 ESC 

串 来 进行 文字 集 之 间 的 切换 。 正 如 后 面 所 述 ，ISO2022 的 机 制 也 用 在 
了 日 语 等 亚洲 语系 的 文字 编码 中 。 


7.1.5 ”英语 以 外 的 语言 (亚洲 篇 ) 

计算 机 刚 开始 在 日 本 使 用 的 时 候 ， 不 能 处 理 汉字 及 假名 。 所 以 , 日 语 
只 能 用 罗马 字 来 表示 ， 这 太 不 方便 了 ， 就 用 与 ISO 8859 同样 的 方法 定 
义 了 包含 片 假名 的 文字 集 ， 这 就 是 1969 年 定义 的 JIS XX 0201 (参见 表 
7-5) 3 。 现 在 还 偶尔 能 见 着 JIS X 0201 在 使 用 ， 也 就 是 半角 片 假 名 。 
表 7-5 ”JIS X 0201 编码 表 


| 
ae 
| 


主 EBCDIC 中 追加 平 假名 而 形成 


oad 
和 ~、 


3 JIS X 0201 是 ASCII 的 扩展 字符 集 ， 但 历史 上 曾经 使 用 过 
的 EBCDIK (日 立 制 作 所 ) 。 


JIS X0201 的 7 位 部 分 与 ASCII 相当 4 ，8 位 都 用 时 用 以 表示 假名 。 


4 但 是 ，JIS X 0201 中 以 ¥ (日 元 符 ) 来 表示 0x5C (ASCII 中 是 \) ， 以 ”( 上 划 线 ) 来 表示 
0x7E (ASCII 中 是 ~) 。 


但 我 们 平常 使 用 的 并 不 只 是 片 假名 。 于 是 1978 年 又 制定 了 包含 我 们 平 
常 使 用 的 平 假名 、 片 假名 以 及 汉字 的 文字 集 JIS X 0278。 当 初 以 JIS C 
6226 开始 标准 化 ， 从 1990 年 的 修正 版 开始 称 为 JIS X 0208。 


包括 我 们 使 用 的 日 语 在 内 的 亚洲 语系 ， 大 家 都 知道 ， 与 欧洲 语系 比 起 
来 ， 文 字 种 类 要 多 得 多 。JIS X 0208 有 6879 个 字符 (其 中 汉字 6355 
个 ) 。 有 这 么 多 字 ， 一 个 字 世 就 表现 不 了 。JIS X 0208 (估计 是 ) 世界 
上 第 一 个 用 多 字 节 表现 一 个 文字 的 字符 集 。 


JIS X 0208 用 16 位 (2 个 字 节 ) 来 表现 文字 编码 ， 最 初 的 8 位 称 为 
区 ， 后 面 8 位 称 为 点 。 各 个 区 和 点 分 别 对 应 ASCII 码 中 可 以 表示 ? 的 
文字 ， 所 以 JIS X 0208 有 94 个 区 ， 每 个 区 有 94 个 点 。 每 个 文字 用 nm 
区 m 点 这 种 形式 的 坐标 来 指定 。 比 如 ， 平 假名 的 击 为 4 区 2 点 ， 汉 字 
松 为 30 区 30 点。 


5 ASCII 中 可 以 表示 的 文字 是 表 7-2 中 所 示 的 十 进 制 数 33 对 应 的 “5 到 126 对 应 的 “~”， 共 94 


企 空 乌 


六 字符。 


既然 一 个 字 不 能 用 一 个 字 太 来 表示 ， 束 必须 用 某 种 形式 的 复数 字 市 来 
定义 ， 这 就 是 文字 编码 方式 。JIS X 0208 的 文字 编码 方式 分 为 3 大 
类 ， 即 Shift_ JIS 和 EUC-JP 和 ISO-2022-JP (JIS 码 ，Junet 仅 )。 


Shift_JIS 


Shift_JIS 虽然 以 两 个 字 节 来 表示 JIS X 0208 的 字符 ， 为 了 利用 本 来 已 
经 存在 的 半角 假名 ， 就 避 开 了 半角 假名 的 空间 ， 也 就 是 错开 了 这 部 分 
空间 。 错 开 这 个 词 在 英文 中 是 Shift，Shift JIS 因此 得 名 。 这 种 编码 方 
式 在 微软 系列 操作 系统 中 长 期 使 用 ， 所 以 通称 MS 汉字 码 6 。 


Eo 


6 微软 曾经 将 Shift_JIS 称 为 CP932。1983 年 ， 日 本 IBM 和 NEC 分 别 独自 扩展 了 CP932， 
1993 年 ， 微 软 将 “NEC 特殊 字符 "和 “IBM 扩展 字符 ”加 入 了 CP932。 也 有 人 将 CP932 称 为 “MS 
汉字 码 ”。 


Shift_ JIS 以 两 个 字 节 来 表示 JIS X 0208 的 字符 。 第 一 个 字 节 使 用 与 JIS 
X0201 不 重复 的 空间 (0x81~-0x9f，0xe0~-0xfc) ， 第 二 个 字 节 使 用 更 
广泛 的 空间 (0x40~-0x7e，0x80~-0xfc) ， 包 括 重 复 的 部 分 。Shift_ JIS 
中 ， 平 假名 的 为 以 0x82 0xa0 来 表示 ， 汉 字 的 松 以 0x8f 0xbc 来 表示 。 


Shift JIS 的 最 大 优点 是 它 最 为 普及 。 糯 国 微软 公司 的 操作 系统 目 MS- 
DOS 以 来 长 期 使 用 Shift_JIS， 美 国 苹果 公司 的 Mac 操 作 系 统 也 是 。 结 
果 ， 所 谓 的 个 人 电脑 上 ，Shift_JIS 可 以 说 成 为 事实 上 的 标准 了 。 同 
时 ， 含 有 过 去 曾 大 量 用 过 的 半角 假名 的 数据 还 可 以 继续 使 用 ， 这 在 当 
时 也 是 很 方便 的 。 


可 是 这 些 优点 逐渐 变 得 不 重要 了 。 现 在 这 两 个 公司 的 操作 系统 未 渐 改 
用 后 面 将 要 介绍 的 Unicode 了 。 半 角 假 名 及 数据 一 点 不 变 直 接 利 用 ， 
已 经 不 再 是 必然 的 了 。 


Shift_JIS 也 有 缺点 。 为 了 避 开 半角 假名 空间 ， 第 一 字 蔬 需要 钳 开 因而 
空间 变 窗 ， 第 二 个 字 节 里 ASCII 文字 出 现 了 。 这 样 ， 就 不 能 简单 地 判 
别 每 个 独立 的 文字 。 很 多 情况 下 ， 非 得 从 字符 串 的 最 开头 开始 扫描 才 
能 正确 判别 字符 串 的 内 容 。 


而 且 ， 第 二 个 字 节 如 果 有 “这 种 可 能 带 有 特殊 意义 的 字符 的 时 候 ， 可 

能 发 生 很 麻烦 的 错误 。 

比如 ， 在 Shift_JIS 中 编写 [ print“ 成 绩 表 ”] 这 种 程序 的 时 候 ， 表 的 第 二 

个 字 节 是 相当 于 “的 0x5c， 意 味 着 字符 串 终端 字符 的 双 引 号 被 转 义 
( 即 双 引 号 与 人 "结合 被 认 作 别 的 字符 ) ， 造 成 语法 错误 。 


EUC-JP 


EUC-JP (Extended UNIX Code for Japanese) 是 完全 无 视 半 角 假 名 的 空 
间 ， 从 而 使 与 JIS X 0208 的 相互 转换 变 得 简单 化 的 一 种 字符 编码 方 

式 。EUC-JP 广泛 用 于 UNIX 系列 操作 系统 中 的 日 语 处 理 。 为 了 得 到 某 
个 字 的 EUC-JP 码 ， 只 要 将 JIS X 0208 码 中 字 节 的 第 8 个 位 置 设 为 1 
(ON) 就 行 了 。EUC-JP 虽 没 有 为 半角 假名 保存 空间 ， 但 并 不 是 不 能 


表示 半角 假名 ， 而 是 在 JIS X 0201 的 文字 编码 前 面 放 置 一 个 0x8e 的 方 
式 来 表示 ”。 


7 例如 ，7 (JISX0201 中 是 B1) 以 8EB1 表示 。 


与 Shift_ JIS 比 起 来 ， 构 成 EUC-JP 码 的 多 字 节 文字 的 每 一 个 字 节 的 第 
8 位 都 是 ON， 所 以 有 容易 识别 、 字 符 串 处 理 简单 、 不 易 出 错 等 优点 。 
也 不 存在 0x5c 问题 (\ 问 题 ) 。 

另 一 方面 ， 因 为 与 包含 半角 假名 的 数据 不 兼容 ， 想 维护 过 去 的 数据 时 
稍稍 有 些 不 便 。 还 有 ， 处 理 半角 假名 时 ， 以 两 个 字 节 来 表示 ， 
Shift_JIS 所 具有 的 文字 显示 宽度 与 字 节 长 度 相同 这 一 优点 也 失去 了 。 


ISO-2022-JP 


ISO-2022-JP 以 ESC 字符 串 来 切换 ， 使 用 ISO2022 框架 8 来 表示 JIS X 
0208 文字 集 ， 又 称 JIS 码 ,或 JUNET 码 。 


虽然 不 使 用 ESC 字符 串 ， 但 EUC-JP 也 是 在 ISO2022 框架 的 范围 内 的 。 


Co 


从 ASCII 以 外 的 文字 集 切 换 到 ASCII 文字 集 时 ， 先 送 一 个 3 字 节 的 字 
符 串 ESC(B。 切 换 到 JIS X 0208 文字 集 时 ， 送 另外 一 个 3 字 节 的 字符 
串 ESC$B。 所以，ISO-2022-JP 中 要 表示 “未 避 站 上 matz” 时 ， 就 成 为 
7-2 所 示 的 18 个 字 节 。 


SC SC 

lb 24 42 24 5e 24 44 24 62 24 48 lb 28 42 6d 61 74 7a 
JIS X 0208 开始 ASCII 开 始 

| > | > 

求 你 t . 人 


图 7-2 ISO-2022-JP 中 所 表示 的 “ 袁 忆 总 上 matz” 
ISO-2022-JP 每 过 到 ESC 了 字符 串 束 改 变 状态 。 也 就 是 说 ， 即 便 是 同样 的 
一 串 字 节 ， 也 会 因为 最 近 出 现 的 ESC 字 答 串 的 不 同 ， 而 表现 不 同 的 文 
字 集 ， 具 有 不 同 的 意义 。 这 样 的 字符 编码 方式 称 为 stateful ( 带 状 


/DA 


反之 ， 像 Shift JIS、EUC-JP 那 种 不 带 状态 的 方式 称 为 stateless (不 带 
状态 )  。 带 状态 的 字符 编码 方式 在 计算 机 内 部 处 理 时 搞 得 很 复杂 ? 。 


ISO-2022-JP 主要 用 于 邮件 及 网 络 新 闻 等 通信 和 领域 。 


9 比如 ， 从 一 个 字符 串 的 中 间 开 始 读 出 ， 如 果 不 回溯 到 前 面 的 ESC 字符 串 ， 就 不 能 够 确定 处 
理 内 容 S 


ISO-2022-JP 作为 通信 用 字符 编码 方式 而 被 采用 的 主要 原因 在 于 ， 以 
前 ， 但 也 并 不 是 很 久 以 前 ， 所 使 用 的 邮件 系统 中 将 通信 内 容 的 第 7 位 
给 屏蔽 了 。 像 邮件 、 新 闻 那 样 ， 在 到 达 最 终 地 址 之 前 ， 要 经 过 多 个 服 
务 器 ， 不 能 因为 一 部 分 系统 的 问题 而 丢失 信息 ， 安 全 性 尤为 重要 ， 所 
以 第 8 位 专用 于 校 验 。 


实际 程序 中 处 理 日 语 的 时 候 ， 内 部 一 般 用 Shift_JIS 或 EUC-JP 来 处 理 
通信 用 的 ISO-2022-JP 码 。 


其 他 文字 集 


需要 使 用 多 字 节 的 不 只 有 日 语 。 除 日 本 以 外 的 亚洲 国家 或 地 区 也 都 各 
自 定 义 了 相应 的 文字 集 ， 像 中 国 的 GB 2312 (EUC-CN) 、 韩 国 的 KS 
X 1001 (EUC-KR) 以 及 中 国 台湾 的 Big 51 等 ， 都 是 有 代表 性 的 文字 
集 〈 括 号 内 是 编码 方式 ) 。 


10 Big5 (大 五 码 ) 并 非 公共 标准 ， 而 是 由 Acer 等 5 家 电脑 制造 商 自 主 定义 的 文字 编码 。 由 于 
这 个 原因 ， 文 字 集 与 文字 编码 方式 没有 分 开 。 


7.1.6 ” Unicode 的 问世 


各 个 国家 都 定义 了 目 己 使 用 的 文字 编码 ， 结 果 世 界 上 充满 了 各 种 文字 
编码 。 特 别 是 在 日 本 ， 光 是 日 常 使 用 的 文字 编码 就 有 3 种 

(Shift JIS、EUC-JP 和 ISO-2022-JP) ， 它 们 还 不 能 统一 成 一 种 。 虽 
然 没 有 日 本 那么 严重 ， 但 如 果 不 是 使 用 26 个 拉丁 字母 的 国家 ， 或 多 或 
少 都 有 类 似 问 题 。 


如 条 软件 只 局 限于 一 国 一 语 ， 并 没有 太 大 问题 ， 但 往往 不 是 那样 。 只 
使 用 英语 的 美国 和 英国 的 企业 ， 将 本 国 开发 的 软件 扩展 到 海外 及 别 的 
语言 圈 时 ， 也 会 过 到 问题 。 


为 了 解决 这 个 问题 ， 开 始 了 两 种 动向 。 一 个 是 ISO 1064611 ， 以 定义 
应 该 成 为 新 时 代 的 ASCII 的 文字 编码 体系 为 目的 。 另 一 个 是 
Unicode， 在 苹果 、 微 软 等 软件 公司 主导 〈 正 确 来 讲 是 Unicode 
consortium) 下 定义 。 虽 然 近 期 二 者 还 会 对 立 ， 但 因为 定义 重复 的 文字 
编码 是 个 浪费 ， 以 后 会 统一 为 一 种 。 


11 国际 标准 化 组 织 定 义 ASCII 的 是 ISO 646 标准 ， 因 此 使 用 了 10646 这 个 名 称 。 


本 来 对 于 ISO 10646 的 方案 ， 软 件 处 理 上 虽 有 点 费事 ， 但 很 通用 。 上 所 
以 ， 最 后 决定 统一 为 Unicode 标准 的 时 候 ， 包 括 我 在 内 ， 很 多 人 都 觉 
得 可 惜 。 但 现在 想起 来 ， 如 果 不 能 达成 妥协 ， 两 种 标准 都 残留 下 来 的 
话 ， 会 比 现在 有 更 大 的 悲剧 ， 统 一 了 还 是 好 。 

Unicode 最 初 的 目的 是 把 世界 上 的 文字 都 映射 到 16 位 空间 中 去 。 也 就 
是 说 ， 当 初 预想 ， 如 果 能 用 65536 个 文字 2 来 涵盖 世界 各 国 的 各 种 语 
言 文字 的 话 ， 我 们 就 可 以 给 每 个 文字 分 配 一 个 唯一 的 编码 。 


12 216 =65536 (文字 ) 。 


正 因 如 此 ， 运 今 为 止 以 8 位 为 单位 的 字符 串 ， 今 后 则 以 16 位 为 单位 来 
表示 。 这 称 为 UCS-2 (2 byte Universal Character Set) 。 


7.1.7 ”统一 编码 成 16 位 的 汉字 统合 


如 果 将 各 国 使 用 的 字符 编码 一 成 不 变 地 都 收 进来 ，65536 个 字符 怎么 
都 不 够 。 于 是 ， 对 于 字符 个 数 最 多 的 汉字 ，Unicode 中 就 将 中 国 、 日 
本 和 韩国 所 使 用 的 意思 相同 的 汉字 分 配 了 同一 个 编码 。 这 称 为 Han 
Unification (汉字 统合 ，CJK 汉字 统合 ) 。 其 中 Han 是 “ 汉 ” 的 中 国 读 
=- 


结果 ， 既 存 的 文字 编码 与 Unicode 之 间 的 变换 不 能 通过 计算 来 实现 ， 
只 能 通过 内 存 效率 低 的 变换 表 来 实现 。 而 且 不 能 表现 语言 之 间 字 体 的 
不 同 。 比 如 说 ， 汉 语 的 “ 骨 “ 与 日 语 的 “ 骨 ”， 上 半 部 分 内 部 的 小 方块 的 
位 置 不 一 样 。 但 在 Unicode 中 被 分 配 了 同一 个 文字 编码 。 


但 Han Unification 也 不 是 只 有 缺点 ， 像 在 文字 排序 和 检索 的 时 候 ， 有 
超越 语言 、 处 理 简单 的 优点 。 比 如 检索 有 关 毛 泽 东 的 文章 的 时 候 ， 用 


Unicode 的 话 ， 能 跨越 语言 ， 不 管 是 汉语 还 是 日 语 的 文章 ， 都 能 随便 
人 


SS 
以 上 的 16 位 文字 与 Han Unification 是 初期 的 Unicode 的 显著 特征 。 
7.1.8 ”Unicode 的 两 个 问题 


选择 16 位 文字 的 Unicode 有 两 大 副作用 ， 一 个 是 字 节 顺序 (byte 
order) 的 问题 ， 一 个 是 NUL 文字 问题 。 


计算 机 中 表现 16 位 整数 的 时 候 ， 关 于 字 市 顺序 ( 字 市 按 何 种 顺序 排 
列 ) 有 两 个 流派 。 一 个 称 为 little endian13 ， 低 位 的 8 位 先 放 。little 
endian 在 美国 英特尔 公司 的 x86 系列 CPU 中 广泛 使 用 。 男 一 个 称 为 
big endian， 为 美国 SUN 公司 的 SPARC 等 CPU 所 采用 。 


13 little endian 和 big endian 这 两 个 词 ， 来 源 于 英国 讽刺 作家 斯 威夫 特 所 著 的 《 格 列 佛 游记 》 
(1726 年 ) 。 第 一 篇 Lilliput 国航 行 记 中 讲述 ， 剥 鸡蛋 从 尖 的 那 一 头 开始 剥 的 Lilliput 国 
(little endian) 与 从 圆 的 那 一 头 开始 剥 的 Blefuscu 国 (big endian) 之 间 战 争 的 故事 。 战 争 的 

原因 在 于 剥 鸡蛋 的 方法 有 分 此 。 


将 16 位 字符 串 的 UCS-2 写 入 文件 时 ， 使 用 哪 种 endian 是 个 重要 问 
题 。 选 了 一 方 的 话 ， 在 男 一 方 的 CPU 上 处 理 时 要 花 更 多 成 本 。 结 果 ， 
Unicode 选 了 一 种 模棱两可 的 解决 方案 一 一 哪 种 都 可 以 。 作 为 补偿 ， 
将 BOM 标志 (byte order mark, BOM) 放 在 文件 头 ， 以 此 判别 文件 中 
所 舍 文 本 的 字 节 顺序 。 


BOM 也 分 到 了 一 个 号 码 0xfeff。 这 个 号 码 的 字 厄 顺序 反 转 以 后 得 到 的 
号 码 0xfffe 在 Unicode 中 是 空 号 ， 所 以 先 读 文件 的 前 两 个 字 季 ， 如 果 是 
0xff、0xfe 的 话 ， 这 个 文件 的 字 市 顺序 或 是 little endian， 反 之 则 是 big 
endian。 如 果 先 头 两 个 字 节 既 不 是 0xff， 也 不 是 0xfe， 束 假定 字 广 顺序 
是 big endian 。 


如 有 果 字 符 串 里 混入 了 非 BOM 的 标 等 ， 程 序 处 理 起 来 式 变 得 复杂 了 。 
在 先头 以 外 的 地 方 混 入 BOM， 或 者 稀里糊涂 坪 了 在 先头 放 BOM 的 情 
况 总 会 有 吧 。 最 重要 的 是 ， 子 太 顺 序 一 旦 错 了 ， 会 引起 可 怕 的 文字 乱 
码 ， 所 以 字 节 顺序 很 重要 。 


人 和 16 位 字符 串 引 起 的 问题 ， 还 有 一 个 叫 NUL 文字 
问题 。 


传统 C 语言 处 理 的 字符 串 ， 一 般 有 一 个 终端 文字 NUL (^\0’”) 。 但 是 
作为 16 位 文字 的 字符 串 ， 中 途 会 出 现 NUL 文字 。 所 以 ，C 语言 中 处 
理 字 符 串 的 传统 函数 (strcpy、strcmp ) 不 能 用 于 16 位 文字 的 字 
符 串 。 


像 Java 那样 的 语言 ， 一 开始 就 是 以 16 位 文字 为 前 提 而 设计 的 ， 所 以 
没什么 问题 。 但 以 C 语言 处 理 16 位 文字 的 时 候 ， 需 要 全 新 的 API。 


7.1.9 Unicode 的 文字 集 


单 说 Unicode 的 时 候 ， 往 往 是 指 作为 文字 集 的 Unicode。Unicode 每 次 
更 新 版 本 的 时 候 ， 都 要 追加 文字 ， 现 在 几乎 宫 括 了 世界 上 存在 的 所 有 
文字 4 。2006 年 7 月 制定 的 Unicode 5.0， 实 际 上 包含 了 99024 个 文 
字 。 


14 公元 前 1400 年 左右 ， 和 希腊 使 用 的 “ 线 文字 B” 等 历史 上 的 文字 也 放 进 去 了 。 


现在 比 Unicode 更 大 的 文字 集 只 存在 两 个 。 一 个 是 大 约 16 万 字 的 “ 今 
苷 文字 镜 ”， 一 个 是 17 万 字 的 “TRON code”15 。 从 实用 的 角度 看 , “有 
了 Unicode 就 能 表现 世界 上 的 文字 ”这 种 说 法 也 并 非 言 过 其 实 。 


15 “今昔 文 字 镜 ” (http:/www.mojikyo.com/ ) 以 应 用 程序 的 形式 提供 ， 包 含 重 复 文 
字 。“TRONcode” (http://www2.tron.org/troncode.html ) 有 意 增 加 了 一 些 重复 文字 。 


Unicode 有 一 个 非常 好 的 优点 ， 那 融 是 它 不 光 收 集 了 世界 上 的 文字 ， 
而 且 同 时 提供 了 包含 文字 的 名 称 、 由 来 、 意 思 以 及 文字 类 别 等 信息 的 
数据 库 。 这 样 ， 即 便 是 读 不 出 来 的 文字 也 能 够 处 理 。 


但 它 并 不 是 只 有 优点 ， 有 3 个 问题 产生 。 第 1 个 难点 ， 因 为 不 断 增加 
文字 ， 文 字数 已 经 突破 了 16 位 数 的 界限 65535。 单纯 的 16 位 编码 方 
式 已 经 不 能 表示 这 么 多 字 ， 显 露出 当初 Unicode 构想 的 不 合理 之 处 。 


现在 ，Unicode 放弃 了 16 位 方式 ， 而 用 21 位 来 表示 一 个 文字 。 现 在 
Unicode 的 有 效 编码 范 围 是 0~0x1lOffff， 能 够 表示 111 万 4111 个 文 
字 。 不 管 有 多 少 字 ， 这 肯定 够 用 了 。 


7.1.10 “文字 表示 的 不 确定 性 


Unicode 的 另 一 个 难点 是 为 了 表示 某 个 文字 ， 可 以 有 多 种 方法 。 比 如 
说 ,日文 假名 办 ( 读 作 GA) ， 既 可 以 看 做 是 “304C- 平 假名 字母 

以 看 做 是 “304B- 平 假名 字母 KA” 与 “3099- 假 名 浊 点 符 ” 的 组 
合 字 符 串 。 


幸运 的 是 ，Unicode 中 定义 了 称 为 正规 化 (normalization) 的 手续 。 虽 
但 可 以 将 文字 往 尽 可 能 紧 读 的 方向 ， 或 者 往 尽 可 能 分 散 
IL ° 


第 3 个 难点 ， 这 不 能 怪 Unicode， 而 是 因为 历史 原因 。 但 以 Unicode 处 
理 日 语 的 时 候 ， 是 一 个 不 可 避免 的 问题 。 


ASCII 中 0x5C 被 分 配给 了 〈 反 和 斜 杠 ) ， 但 在 JIS X 0201 及 
Shift_JIS 被 分 给 了 [了 关 (日 元 符 ) 。 在 Shift_JIS 的 全 盛 期 ， 用 户 需 要 用 
反 和 斜 杜 时 ， 用 同一 内 码 的 日 元 符 就 可 以 了 ， 不 需要 明确 区 别 。 


比如 国外 用 \n ”( 反 和 斜 杠 tn) 来 表示 换行 符 ， 日 本 用 ¥n (日 元 符 +n) 
来 表示 ， 这 些 都 无 大 碍 。 


但 是 ，Unicode 中 定义 了 反 斜 杠 和 日 元 符 两 个 字符 。 这 样 在 把 旧 文 档 
转换 到 Unicode 的 时 候 ， 就 无 法 自动 判断 ， 像 旅行 费 ¥50 000 的 时 候 该 
用 日 元 符 , 而 print "hello\n" 的 时 候 要 用 反 斜 本 了 。 


另外 还 有 多 个 字符 也 有 类 似 的 问题 。 

7.1.11 Unicode 的 字符 编码 方式 

为 了 表示 Unicode 文字 集 ， 有 多 种 编码 方式 。 主 要 有 3 种 : UTF-8、 
UTF-16 和 UTF-32。 根 据 字 节 顺序 ，UTF-16 和 UTF-32 又 各 自 可 以 分 


为 2 类 ,分别 是 UTF-16BE (big endian) 、UTF-16LE (little 
endian) 、~ UTF-32BE (big endian) 和 UTF-32LE (little endian) 


UTF-8 


UTF-8 为 可 变 长 的 ， 与 ASCII 具有 兼容 性 的 编码 方式 。 也 就 是 说 ， 将 
ASCII 字符 串 当 做 是 UTF-8 字符 串 来 处 理 也 不 会 有 问题 。 说 得 形象 一 


点 ， 世 上 的 ASCII 码 文件 抒 起 来 比 山 还 高 ， 这 是 一 个 很 方便 的 性 质 。 
另 一 个 特征 是 以 UTF-8 编码 的 字符 串 ， 不 含 NUL 文字 。 可 以 作为 通 
0 i 
,| J 


UTF-8 以 一 定式 样 的 字 节 组 合 来 表示 Unicode 中 的 21 位 文字 (参见 表 
7-6) ， 这 样 ， 操 作 UTF-8 字符 串 时 ， 可 以 利用 以 下 便利 性 。 


表 7-6 ”UTF-8 的 字 节 组 合式 样 及 性 质 


字 节 组 合式 样 值 的 范围 
110xxxxx 10XXXXXX 80-07FF 


1110xxxx 10XXXXXX 10OXXXXXX 
。 第 一 字 节 第 8 位 (最 上 位 ) 不 是 ON 的 字 节 ， 表 示 1 字 节 文字 
(ASCII 的 空间 ) 


。 只 要 看 第 一 字 世 位 的 式样 丈 能 知道 接 下 来 还 有 几 个 字 季 ， 数 数 有 
儿 位 是 1 就 行 了 。 

。 多 字 节 文字 的 各 个 字 节 ， 除 了 第 一 字 节 以 外 ， 都 以 10 开始 (第 8 
位 是 1， 第 7 位 是 0) 。 即 便 不 从 字符 串 的 先头 开始 扫描 ， 也 能 知 
道 构成 这 个 文字 的 第 一 个 字 市 在 哪里 。 

。 采 用 以 字 市 为 单位 的 编码 方式 ， 没 有 字 廊 顺序 问题 。 


以 上 性 质 ， 对 于 内 部 程序 处 理 字符 串 非 党 方便 。 为 外， 又 没有 子 廊 顺 
序 问 题 ， 在 外 部 处 理 时 也 很 有 用 。 


但 是 ，UTF-8 也 有 缺点 。 


。 消 费 过 多 的 内 存 。 如 果 仅 限于 ASCII 空间 ， 则 与 ASCII 相同 。 但 
几乎 所 有 的 汉字 ， 都 要 占用 3 个 字 节 。 


。 构成 文字 的 字 节 数 是 可 变 的 ， 因 而 在 随机 访问 字符 溃 中 的 任意 文 
字 时 ， 代 价 与 字符 串 的 长 度 成 比例 。 


但 随 着 计算 机 内 存 的 容量 和 性 能 的 提高 ， 到 了 现在 ， 无 视 这 些 缺 点 也 
无 所 请 了 。 比 如 ， 即 使 UTF-8 占用 的 内 存 是 Shift_JIS 的 1.3 倍 ， 以 

GB 为 单位 的 内 在 和 以 TB 为 单位 的 人 硬盘， 现在 都 很 容易 得 到 了 ， 这 些 
问题 已 经 不 成 为 问题 了 。 反 倒 比 接 下 来 讲述 的 UTF-16 和 UTF-32 更 有 
好 处 。 还 有 ， 随 机 访问 有 代价 问题 ， 但 从 长 年 处 理 Shift JIS 和 EUC- 
JP 等 可 变 长 字符 串 积 标的 经 验 和 传统 也 知道 ， 它 几乎 不 会 引起 任何 致 
命 性 的 速度 低下 的 情况 。 


UTF-16 


Unicode 中 能 以 16 位 表示 的 空间 了 驶 以 16 位 为 单位 来 表示 ， 超 过 16 位 
空间 的 就 以 称 为 代理 对 (surrogate pair ) 的 两 个 16 位 码 的 组 合 
来 表示 。 以 前 ，Unicode 只 包含 16 位 就 能 表示 的 那些 字 的 时 候 ，UTF- 
16 被 称 为 UCS-2。 


但 是 ，Unicode 文字 集 从 2.0 版 开始 超越 了 16 位 的 界限 ， 到 现在 缺点 
已 经 很 突出 了 。 


和 目 从 UTF-16 成 为 可 变 长 之 后 ， 不 光 失 去 了 UCS2 所 具有 的 16 位 固定 

长 的 优良 特性 ， 还 增加 了 字 节 顺序 等 以 前 并 不 存在 的 问题 。 所 以 ， 

UTF-16 已 经 没什么 优点 了 ， 个 人 认为 ， 从 今 以 后 ， 没 有 必要 再 采用 这 

种 字符 编码 方式 了 。 虽 说 这 样 ， 以 前 选择 16 位 编码 方式 (当时 是 

UCS-2， 现 在 是 UTF-16) 的 平台 还 存在 ， 完 全 抛弃 也 不 行 。 采 用 

J 的 平台 有 Windows (文件 路 径 的 编码 方式 ) 和 Java (字符 串 
理 ) 等 。 


UTF-32 
UTF-32 采用 4 字 下 固定 长 的 编码 方式 。 耗 费 的 内 存量 ， 在 ASCII 至 
间 是 4 倍 ， 在 汉字 空间 也 有 1.3 倍 ， 因 为 这 些 原因 ， 所 以 没什么 人 


气 。 虽 然 如 此 ， 因 为 固定 长 ， 可 以 随机 访问 ， 作 为 内 码 也 有 些 有 利 的 
性 质 ， 但 存在 字 市 顺序 的 问题 ， 不 推荐 作为 外 部 编码 。 


人 
[| o 


7.2 程序 中 的 文字 处 理 


首先 复习 一 下 关于 文字 编码 的 几 个 专用 语 。 先 确认 一 下 文字 编码 、 文 
字 集 和 文字 编码 方式 这 3 个 专用 语 的 区 别 。 时 不 时 被 称 为 文字 编码 的 
EUC-JP、Shift_ JIS 和 Unicode， 其 实 是 属于 不 同 的 分 类 。EUC-JP 与 
Shift_ JIS 属于 文字 编码 方式 ， 而 Unicode 则 是 文字 集 的 名 称 。 


7.2.1 ”文字 编码 有 多 个 意思 


计算 机 不 能 处 理 文字 本 号 ， 束 要 让 文字 与 编码 对 应 。 与 文字 相对 应 的 

编码 就 称 为 文字 编码 。 

以 下 要 介 站 绍 的 包 舍 文 字 集 和 文字 编码 方式 在 内 的 文字 处 理 方式 ， 有 了 时 
忌 称 为 文字 编码 。 像 这 样 ， 广 义 的 文字 编码 属于 不 正确 的 表现 ， 在 疡 


刻意 义 上 讨论 从 时 我 们 不 用 ， 而 是 使 用 正确 的 文字 集 或 文字 编码 方式 等 
词 ; 


7.2.2 ”只 能 处 理 文字 集中 包含 的 文字 


前 面 已 经 提 到 ， 计 算 机 让 文字 与 编码 对 应 起 来 进行 处 理 。 反 过 来 说 ， 
只 能 处 理 分 配 了 编码 的 文字 。 分 配 了 编码 的 文字 集合 就 称 之 为 文字 
比如 说 ， 被 称 为 ASCII 的 文字 集 是 英文 字母 、 数 字 及 一 些 记 号 等 被 分 
配 了 127 以 下 编码 的 文字 的 集合 。 日 本 使 用 的 文字 集合 有 ASCII、JIS 
X0201 (通称 半角 假名 ) 、JIS X 0208 和 Unicode 等 (参见 表 7-7) 。 


表 7-7 日 本 国内 使 用 的 主要 文字 集 


容 制 字符 ) 


JIS X 0201 英文 字母 、 数 字 、 记 ; | 
JIS X 0208 汉字 、 各 种 记号 6879 字 


Unicode 计划 涵盖 全 世界 的 文字 99024 字 (5.0 版 ) 


7.2.3 ”纷繁 复杂 的 文字 编码 方式 


文字 集 确 定 以 后 ， 将 各 个 文字 对 应 的 编码 按 顺 序 排列 起 来 ， 束 可 以 表 
示 由 文字 排列 成 的 文本 了 。 


如 果 文 字 集 中 所 用 文字 编码 的 最 大 值 也 小 于 255 〈 例 如 ASCID) ， 各 
个 编码 只 要 一 个 字 世 束 可 以 表示 ， 这 里 天 不 多 说 了 。 但 是 ， 在 更 大 的 
文字 集中 ， 必 须要 考虑 内 存 使 用 效率 和 处 理 效率 等 因素 ， 来 决定 计算 
机 如 何 处 理 。 处 置 方 法 ， 换 言 之 ， 就 是 把 文字 编码 列 的 表示 方法 称 为 
文字 编码 方式 (Character Encoding Scheme) 。 


同一 个 文字 集 有 多 种 文字 编码 方式 的 情形 并 不 罕见 。 比 如 日 本 国内 广 
泛 使 用 的 文字 集 JIS X 0208 就 有 ISO-2022-JP、Shift JIS 以 及 EUC-JP 
等 几 种 文字 编码 方式 ， 它 们 各 有 优 缺 点 ， 使 用 状况 也 不 同 。 


同样 ， 文 字 集 Unicode 有 UTF-8、UTF-16BE (big endian) ，UTF- 
16LE (little endian) 、 UTF-32BE (big endian) 以 及 UTF-32LE (little 
endian) 等 几 种 文字 编码 方式 。 它 们 也 被 适当 地 分 开 使 用 。 


7.2.4 ”影响 力 渐 微 的 Shift_JIS 与 EUC-JP 


Shift_JIS 是 从 MS-DOS 开始 渐渐 使 用 的 面向 JIS X 0208 的 文字 编码 方 
式 。 为 避 开 MS-DOS 以 前 曾 使 用 的 JIS XxX 0201 (半角 假名 ) 空间 ， 将 
要 分 配 的 编码 适当 错开 ， 因 而 得 名 Shift_JIS。 微 软 系 列 操作 系统 和 
Mac 操作 系统 (汉字 Talk) 都 兽 用 过 ， 在 个 人 电脑 领域 具有 压倒 性 的 
占有 率 。 但 近年 来 ，Windows 和 Mac 相继 改 用 Unicode，Shift_JIS 的 
重要 性 日 渐 下 降 。 现 在 已 不 推荐 使 用 。 


EUC-JP 是 为 了 表示 一 个 字 节 表示 不 了 的 ， 像 JIS X 0208 那 种 多 字 文 
字 ， 而 将 美国 AT&T 公司 定义 的 EUC (Extended Unix Code) 进行 日 
语 化 而 得 到 的 版 本 。 那 是 面向 UNIX 所 设计 的 。EUC 还 有 面向 韩国 的 
版 本 EUC-KR 和 面向 中 国 的 版 本 EUC-CN 。 


EUC-JP 用 于 UNIX 系列 操作 系统 中 日 语 的 处 理 ， 今 后 仍 会 广泛 使 用 ， 
不 过 逐渐 会 被 Unicode 所 取代 。 


7.2.5 ”Unicode 有 多 种 字符 编码 方式 


日 本 有 JIS X 0208， 中 国有 GB2312， 各 国都 定义 了 表示 本 国语 言 的 文 
字 集 。 这 样 ， 开 发 各 国语 言 都 能 共同 处 理 的 软件 就 很 困难 。 为 了 能 共 
同 处 理 全 世界 各 种 文字 ， 就 制定 了 文字 集 Unicode 。 


当初 ，Unicode 的 目标 是 在 16 位 (65 535 个 文字 ) 的 范围 内 表示 全 世 
界 的 文字 。 当 时 想 ， 有 这 么 多 字 应 该 够 了 吧 。 实 际 上 ， 世 界 上 使 用 的 
文字 比 预想 的 要 多 ， 不 能 够 赛 括 在 16 位 的 范围 以 内 。 最 新 的 Unicode 
5.0 发 展 为 包含 了 99 024 个 字 的 巨大 文字 集 。 


Unicode 的 优点 是 ， 对 于 文字 集 里 的 文字 ， 还 定义 了 包含 文字 的 性 质 
和 作用 等 详细 信息 的 数据 库 。 


另外 ， 应 注意 的 一 点 是 ， 根 据 所 请 汉字 统一 (Han unification) 的 处 
理 ， 中 日 韩 三 国 意 义 几 乎 相同 的 汉字 被 分 配 了 同一 个 文字 编码 。 结 
果 ， 不 能 通过 计算 从 既 有 的 文字 集 变 换 为 Unicode， 而 是 需要 定义 一 
个 很 大 的 对 应 表 。 


Unicode 的 文字 编码 方式 ， 从 大 的 方面 分 为 3 种 。 下 面 ， 按 UTF-16、 
UTF-32、UTF-8 的 顺序 来 说 明文 字 编 码 方式 。 


UTF-16 


Unicode 中 能 以 16 位 表示 的 空间 (Basic Multilingual Plane，BMP) 整 
以 16 位 为 单位 来 表示 ， 超 过 16 位 空间 的 束 以 称 为 代理 对 的 两 个 16 位 
码 (32 位 ) 的 组 合 来 表示 。 


Unicode 只 定义 了 BMP 领域 文字 的 时 候 ， 被 称 为 UCS-2。UCS-2 是 
Unicode 制定 之 初 推 荐 的 文字 编码 方式 。UCS-2 的 上 位 互 换 方 式 为 
UTF-16， 用 于 Java 中 文字 的 内 部 表示 1 ， 以 及 Windows 和 Mac 操作 
系统 的 文件 名 表示 等 方面 。 


1 为 了 表示 在 计算 机 内 部 处 理 的 文本 数据 而 采用 的 字符 编码 方式 称 为 内 部 表示 。 当 内 部 表示 
和 外 部 表示 不 同 的 时 候 ， 在 读 入 数据 时 要 进行 变换 。 内 部 表示 并 不 要 求 兼容 性 ， 但 希望 处 理 


效率 尽 可 能 要 高 。 


但 现在 Unicode 已 经 超越 16 位 ，UTF-16 也 不 再 有 什么 优点 ， 没 有 必 
要 再 采用 这 种 字符 编码 方式 了 。 


UTF-32 


UTF-32 以 32 位 整数 来 表示 Unicode。 不 再 有 代理 对 那 种 丑陋 的 机 
We 
时 效率 很 高 。 


但 在 ASCII 中 只 要 8 位 就 能 表示 的 英文 字母 或 数字 ， 在 UTF-32 中 却 
要 占用 32 位 ， 因 而 存在 内 存 使 用 率 低 ， 以 及 字 节 顺序 等 问题 ， 它 不 适 
用 于 通信 以 及 文件 保存 等 文本 数据 的 外 部 表示 ? ， 而 更 适合 用 于 字符 
串 处 理 的 内 部 表示 。 


2 为 了 表示 往 文件 中 保存 的 数据 以 及 通信 中 传输 的 数据 ， 这 种 超越 一 个 程序 范围 的 文本 数据 
而 采用 的 字符 编码 方式 称 为 外 部 表示 。 外 部 表示 并 不 要 求 处 理 效率 ， 但 在 数据 的 空间 效率 、 
既 有 文本 数据 的 互 换 性 、 表 示 的 确实 性 ， 以 及 不 易 发 生 乱 码 等 方面 有 要 求 。 


UTF-8 


UTF-8 为 可 变 长 的 ， 与 ASCII 具有 兼容 性 的 字符 编码 方式 。 将 ASCII 
字符 串 当 做 UTF-8 字符 串 来 处 理 也 不 会 有 问题 。 


另外 ，UTEF-8 具有 以 下 特征 。 

。 比 UTF-16 和 UTF-32 内 存 使 用 率 稍 微 高 些 。 

。 没 有 字 节 顺序 问题 。 

。 因为 是 可 变 长 的 ， 所 以 文字 的 随机 访问 性 能 低 。 

因为 与 ASCII 具有 兼容 性 ， 而 且 没 有 字 节 顺序 问题 ， 所 以 对 于 外 部 表 
示 来 说 ，UTEF-8 是 一 种 具有 优良 特性 的 字符 编码 方式 。UTF-8 虽然 也 
是 可 变 长 的 ， 如 果 借 鉴 同样 也 是 可 变 长 的 Shift_JIS 和 EUC-JP 在 文字 
0 
| o 


7.2.6 ”为 什么 会 发 生 乱码 


文字 编码 在 理想 情况 下 只 有 一 个 文字 集 (比如 Unicode) 和 一 种 字符 
编码 方式 (比如 UTF-8) ， 这 样 字符 串 的 处 理 就 会 变 得 很 简单 。 但 现 
实 中 却 有 数 不 清 的 文字 集 和 为 数 众 多 的 字符 编码 方式 。 


正 因 如 此 ， 现 实 世 界 中 屡屡 发 生 “ 文 字 乱 码 ” 问 题 。 所 谓 文 字 乱 码 ， 赴 


指 文本 数据 不 能 正确 表示 和 处 理 的 状态 。 文 字 乱 码 虽 然 有 各 种 起 因 ， 
但 共同 的 结果 都 是 不 能 正确 表示 。 


接 下 来 ， 按 原因 分 类 ， 看 看 文字 乱码 都 是 怎么 发 生 的 。 

7.2.7 “字符 编码 方式 错误 

文字 乱码 的 最 大 原因 是 把 程序 的 字符 编码 方式 搞 错 了 。 把 一 种 字符 编 

码 方式 的 数据 按 另 一 种 字符 编码 方式 来 表示 ， 结 果 就 会 完全 不 同 。 汉 

字 和 假名 等 不 能 正确 表示 。 

7-3 是 将 EUC-JP 文本 想当然 地 当做 Shift_JIS 而 读 入 的 例子 。EUC- 

JP 的 全 角 部 分 正好 与 Shift_ JIS 的 半角 相当 ， 被 读 作 半角 假名 。 
EUC-JP，Ruby 位 强 


力 
字 节 组 合 : 52 75 62 79 a4cf b6 af ce cf 
Shift JIS: Ru by 、3? 力 y 
术 了 
图 7-3 ”由 字符 编码 方式 错误 导致 文字 乱 
几乎 所 有 情况 下 ， 文 本 数据 都 不 附加 文字 编码 方式 的 信息 ， 所 以 容易 
引起 错误 。 这 里 ， 很 多 应 用 软件 在 读 入 文本 数据 以 后 ， 大 体会 按 以 下 
方法 来 尝试 自动 检 出 。 


。 检 查 只 在 某 种 字符 编码 方式 下 才 会 出 现 的 子 节 排列 ， 从 而 来 确定 
编码 方式 。 


。 如果 不能 确定 ， 则 按照 文字 的 出 现 频 率 来 推测 。 


这 样 并 不 能 100% 确 定 字 符 编码 方式 。 字 符 编 码 方式 一 旦 错 了 ， 数 据 束 
完全 没有 意义 了 ， 产 生 非 常 显 眼 的 字符 乱码 。 


关于 这 一 点 ， 在 邮件 及 经 由 HTTP 传送 的 文本 数据 中 可 以 指定 字符 编 
码 方式 ， 比 单单 只 有 文本 要 强 多 了 “。 但 这 个 指定 只 是 选项 ， 并 不 二 
任何 时 候 都 可 以 用 。 


3 邮件 是 指 HTTP 邮件 ，HTTP 都 有 content-type 域 ， 可 以 写 入 charset=ISO-8859-1 之 类 的 字符 
编码 方式 的 信息 。 


XML 在 这 方面 很 优秀 。XML 的 规范 中 明确 规定 ， 如 有 果 不 指定 字符 纺 
码 方式 ， 则 都 视 为 UTF-8， 不 会 发 生 “ 不 知道 是 什么 编码 方式 ”的 问 
可 0 XML 之 父 的 Tim Bray 曾 说 : “这 难道 不 是 XML 的 最 大 优 
原 吗 ?9 ” 


7.2.8 ”没有 字体 
为 了 在 计算 机 画面 上 表示 文字 ， 还 需要 文字 编码 及 文字 编码 方式 以 外 


勺 东 


与 某 种 文字 编码 相对 应 的 文字 应 具备 何 种 字形 的 信息 由 计算 机 掌握 ， 
人 必须 将 字形 在 画面 上 表示 出 来 。 这 样 的 字形 数据 称 为 字 


计算 机 想 要 表示 文字 时 ， 如 有 果 没 有 对 应 的 字体 信息 ， 台 不 能 表示 。 这 
种 情况 下 会 发 生 某 种 乱码 。 
一 部 分 处 理 系统 对 于 这 种 表示 不 出 来 的 文字 ， 以 空心 方块 来 表示 ， 所 


以 有 时 把 因 字 体 不 存在 而 发 生 的 乱码 称 作 “豆腐 >。 叶 说 没有 字体 ， 但 
只 有 一 小 部 分 文字 不 能 表示 ， 这 在 字符 乱码 中 属于 受害 较 轻 的 。 


7.2.9 ”变换 为 内 部 码 时 出 错 
与 文字 编码 方式 错误 的 乱码 类 似 的 ， 还 有 编码 方式 变换 错误 。 


正如 后 面 将 要 介绍 的 ， 以 Java 为 首 的 几 种 语言 使 用 一 定 的 内 部 编码 方 
式 。 程 序 从 外 部 读 入 的 文本 数据 ， 不 管 是 何 种 编码 方式 ，EUC-JP 也 
好 ，Shift_JS 也 好 ，UTF-8 也 好 ， 在 进行 处 理 之 前 ， 都 移 给 它 变 成 所 
请 的 内 部 编码 方式 (很 多 情况 下 是 UTF-16 等 Unicode 系列 编码 方 


式 ) 


这 个 变换 有 时 会 发 生 判 断 失 误 。 这 样 的 话 ， 束 会 发 生 与 文字 编码 方式 
错误 类 似 的 乱码 。 

在 表示 时 发 生 的 编码 方式 错误 ， 仅 仅 是 表示 的 问题 。 但 在 变换 时 发 生 
的 错误 ， 随 着 数据 的 变更 ， 可 能 会 破坏 了 数据 。 这 样 ， 以 后 想 要 通过 
更 改编 码 方式 来 表示 文本 殉难 了 。 


7.2.10 “发生 不 完全 变换 


使 用 "文字 集 ? 或 “字符 编码 方式 "这 类 词 时 ， 人 们 往往 觉得 JIS (日 本 工 
等 标准 中 会 有 产 格 的 定义 。 但 很 多 情况 下 ， 实 际 并 不 是 那 


比如 说 ， 很 多 手机 都 能 使 用 各 种 各 样 的 图 画 文字 (参见 图 7-4) 。 这 
些 文字 使 用 了 分 配给 Shift_ JIS 的 外 字 (用 户 可 以 自己 定义 使 用 的 文 
字 ) 领域 中 的 文字 及 字形 。 但 是 ， 如 何 分 配 它们 ， 各 个 电话 公司 都 不 


举 如 器 又 吧 轧 全 
少 和 下 导入 仿 日 
命 光 座 愉 霜 四 辣 人 对 
六 生命 徐 引 


| 


图 7-4 KDDI 的 手机 《au 型号) 能够 使 用 的 彩色 图 画 文 字 
H 


从 手机 送 来 的 文本 数据 ， 大 体 可 以 用 Shif JIS 来 处 理 。 但 不 同 的 字符 
编码 方式 之 间 进 行 变换 时 ， 没 办 法 知道 手机 的 外 字 领 域 是 如 何 使 用 
的 ， 不 能 指望 变换 正确 。 


现在 就 是 这 样 一 个 问题 ， 本 来 就 是 用 户 随便 定义 的 外 字 ， 该 怎么 处 理 
呢 ? 如果 事 先知 道 了 是 哪个 公司 的 手机 送 来 的 数据 ， 向 哪个 公司 的 手 
机 变换 ， 束 可 以 置换 为 类 似 的 文字 4。 但 现在 ,包含 个 人 电脑 在 内 ， 
统一 的 处 理 还 不 可 能 。 


42006 年 7 月 ， 日 本 国内 主要 电话 公司 之 间 相 互 图 画 文字 的 变换 服务 开始 了 “。 和 名称 虽然 不 一 
样 ，NTT docomo 叫 绘 文字 变换 功能 ，KDDI 和 冲绳 蜂窝 电话 叫 绘 文字 互 换 服务 ， 沃 达 丰 ( 现 
在 的 softbank mobile) 叫 邮 件 绘 文字 自动 变换 功能 ， 但 相互 变换 功能 本 身 几乎 一 样 。 有 很 多 

符号 ， 像 心 形 符 ， 在 各 公司 间 符 号 的 形状 和 颜色 几乎 都 能 同等 变换 ， 但 有 些 符 号 ， 像 星座 
符 ， 会 变 成 形状 和 颜色 完全 不 一 样 的 东西 ， 有 些 则 变 成 了 号 〈 倒 空 ) 。 


不 只 是 手机 ， 个 人 电脑 也 有 依存 于 机 种 的 文字 (标准 中 没有 规定 ， 只 
在 某 些 特定 机 种 上 可 以 利用 ) 。 特 别 是 像 Shift_JIS 那 种 已 经 使 用 了 很 
长 时 间 的 文字 编码 ， 为 了 提高 便利 性 而 仿 训 严格 标准 进行 使 用 的 现象 
很 突出 。 


问题 不 仅 在 于 机 种 依存 的 文字 。 为 了 能 够 正确 变换 , “原来 的 编码 方式 
中 的 哪 一 个 文字 ， 对 应 于 新 编码 方式 中 的 哪 一 个 文字 ”， 这 个 问题 需要 
这 不 含糊 地 一 一 确定 。 但 是 ， 个 人 电脑 中 我 们 平常 使 用 的 文字 ， 有 不 
少 殊 是 在 模糊 地 使 用 看 。 


本 来 在 ASCII (ISO 646) 中 ， 就 可 以 根据 各 国情 况 的 不 同 进行 不 同 的 
文字 映射 。 所 以 ，JIS X 0201 中 ，ASCII 的 反 斜 杠 \ 所 对 应 的 编码 

(0x5c) 被 分 配给 了 日 元 符号 ?。 波 浪 线 ~ 的 编码 (0x7e) 则 分 配给 了 
上 划 线 。 继 承 了 ASCII 的 Shift JIS， 原 封 不 动 地 继承 了 这 些 文字 。 


正 因 如 此 ， 国 外 以 反 斜 杠 作 为 转 意 字符 ， 而 日 本 国内 用 日 元 符号 作为 
转 意 字符 这 种 性 事 才 会 发 生 。 


在 作为 AT&T 国际 定义 的 一 部 分 规定 的 EUC-JP 中 ，ASCII 部 分 不 用 
JIS 0201， 而 是 用 原始 的 ASCI 人 码 。 严 格 来 说 ，EUC-JP 不 应 用 日 元 符 
号 ， 而 应 用 反 斜 杠 。 


分 给 这 些 文字 的 编码 是 共同 的 ， 现 在 只 是 表示 上 的 问题 。 程 序列 表 上 
的 换行 符 ， 不 管 是 n， 还 是 对 n， 一 看 束 能 知道 ， 并 不 是 多 么 重要 的 问 


题 。 


即便 以 JIS 标准 为 基础 能 进行 机 械 变 换 的 Shift_JIS 与 EUC-JP 之 间 没 
发 生 问 题 ， 但 Unicode 要 是 掺 和 进来 的 话 就 不 一 样 了 。 在 将 世界 上 很 
多 的 标准 都 吸收 进来 而 诞生 的 Unicode 中 ，\ 与 ¥，^~ 与 ~ 都 有 。 这 种 时 
候 ，0x5c 该 变 成 什么 呢 ? 


除了 以 上 两 个 字符 以 外 ，Unicode 与 其 他 文字 集 之 间 ， 不 是 一 对 一 天 
9 几 个 。 含 有 这 种 文字 的 数据 进行 变换 时 ， 会 有 丢失 信息 
危险 。 


7.2.11 ”文字 集 的 不 同 

以 Shift JIS 和 EUC-JP 为 基础 的 文字 集 用 相同 字符 编码 方式 进行 变换 
时 ， 除 外 字 以 外 ， 不 会 出 什么 问题 。 但 当 文字 集 不 同时 ， 会 发 生 在 文 
字 集 中 找 不 到 应 该 变 成 的 文字 的 情况 。 

问 Unicode 这 种 大 文字 集 变 换 时 ， 除 部 分 模糊 文字 以 外 ， 大 都 可 以 如 
实 进行 变 换 。 但 是 从 Unicode 这 种 大 的 文字 集 向 其 他 文字 集 变换 时 
会 遇 到 文字 不 存在 的 问题 。 

“这 种 文字 不 存在 ， 错 误 ! ”作为 不 能 表示 的 文字 ， 换 成 一 个 豆腐 块 
(或 倒 空 ) 。” 种 种 对 策 也 存在 ， 但 不 管 怎 么 说 ， 都 是 变换 有 问题 。 


5 从 活字 印刷 时 代 开 始 ， 有 这 种 习惯 ， 将 不 能 处 理 的 文字 置换 成 号 〈 倒 空 ) ， 因 为 将 活字 翻 
个 个 儿 就 印 成 那 种 字形 。 


想 想 也 是 ， 混 洒 着 不 能 表示 的 文字 ， 本 来 是 混 光 了 这 种 文本 数据 的 应 
用 程序 的 问题 ， 却 要 怪罪 到 变换 程序 头 上 来 ， 真 可 笑 。 


7.2.12 ” 字 节 顺序 错误 


像 UTF-16，UTF-32 这 种 基本 数据 单位 大 于 1 个 字 节 的 编码 方式 ， 存 
放 数 据 时 字 节 该 以 什么 顺序 摆 放 ， 有 两 大 流派 ， 一 个 是 big endian 
(BE) ， 一 个 是 little endian (LE) 。 上 所以， 同样 是 UTF-16 格式 ， 根 
据 字 节 顺 序 不 同 就 有 两 种 ， 分 别 是 UTF-16BE 和 UTF-16LE (UTF-32 
也 一 样 ) 。 这 个 搞 错 了 ， 会 引起 很 麻烦 的 问题 (参见 图 7-5) 。 


UTF-16LE: &g a Z Z 
字 节 组 合 ; 7e 67 2c 67 4c 88 18 5f 
UTF-16BE: 最 居 稀 稀 
图 7-5 ” 字 节 顺序 错误 导致 文字 乱码 的 例子 


以 上 从 文字 编码 方式 错误 到 字 节 顺序 错误 ， 介 绍 了 各 种 文字 乱码 。 从 
影响 很 大 的 到 微不足道 的 ， 有 各 种 程度 的 乱码 ， 原 因 也 各 不 相同 。 我 


们 并 非 住 在 理想 世界 里 ， 一 时 还 会 为 文字 乱码 而 烦恼 。 


0 的 。 世 界 上 很 多 的 文本 数据 都 在 慢 慢 变 成 以 Unicode 来 
六。 


长 此 以 往 ，Unicode 广泛 普及 ，Unicode 以 外 的 文字 集 的 文本 数据 都 变 
成 过 去 式 ， 而 且 UTF-8 变 为 主流 (编码 方式 ) ， (至 少 日 常生 活 中 ) 
我 们 就 有 望 从 文字 乱码 中 解放 出 来 了 。 

7.2.13 ”从 编程 语言 的 角度 处 理 文字 


有 了 以 上 知识 ， 来 看 看 编程 语言 是 如 何 处 理 文本 数据 ， 特 别 征 文字 编 
码 方式 的 。 


编程 语言 处 理 文本 数据 的 方法 ， 从 大 的 方面 分 ， 有 UCS 方式 和 CSI 方 


陈 两 种 。 


7.2.14 ”以 变换 为 前 提 的 UCS 方 式 
所 谓 UCS (Universal Character Set， 泛 用 字符 集 ) ， 是 指 程序 中 所 处 
理 的 共同 文字 集 (及 字符 编码 方式 ) 。 输 入 输出 时 ， 编 程 语言 将 文本 
数据 变 成 UCS， 内 部 对 文本 数据 进行 统一 处 理 。UCS 被 各 种 编程 语言 
所 利用 。 它 具有 以 下 优点 。 

。 原 理 简 单 ， 容 易 实 现 。 

。 除 变换 外 ， 人 处理 成 本 低 。 

。 实际 成 果 多 。 
但 它 也 有 缺点 。 

。 发 生 不 必要 的 变换 。 

。 变换 存在 模糊 部 分 。 

。 有 处 字 及 机 种 依存 文字 的 问题 。 


。 UCS 中 不 包含 的 文字 绝对 不 能 处 理 。 
内 部 用 UTF-16 时 的 不 必要 变换 ， 可 以 举 出 一 例 : 输入 是 EUC-JP， 输 


出 也 是 EUC-JP 的 情形 。 如 果 按 EUC-JP 处 理 就 不 需要 变换 ， 但 UCS 
中 必须 进行 EUC-JP -UTF-16 一 EUC-JP 的 变换 。 


7.2.15 ”原封 不 动 处 理 的 CSI 方 式 
所 谓 CSI (Character Set Independent， 字 符 集 独立 ) ， 是 指 不 对 各 种 文 
字 集 (及 编码 方式 ) 进行 任何 变换 ， 原 封 不 动 进行 处 理 。 相 对 于 UCS 
的 内 部 只 有 一 种 编码 方式 的 处 理 方法 ，CSI 中 对 各 种 编码 方式 原封 不 
动 地 处 理 。 
CSI 是 优点 多 ， 目 由 度 高 的 方式 。 

。 不 发 生 不 必要 的 变换 。 

。 不 发 生变 换 所 带 来 的 问题 。 

。 不 易 发 生 外 字 的 问题 (可 以 采取 对 策 不 让 其 发 生 ) 。 

。 理论 上 不 存在 不 能 处 理 的 文字 。 

。 根 据 需 要 ， 可 以 处 理应 用 程序 独立 的 文字 集 。 
CSI 可 以 处 理 多 种 文字 编码 方式 ， 所 以 是 UCS 的 超 集 。 实 现 CSI 方式 
局 ， 只 要 在 输入 输出 时 退 加 字符 编码 方式 变换 的 编码 ， 就 成 为 UCS 方 


式 。 


但 与 UCS 相 比 ，CSI 有 以 下 缺点 。 
。 字符 串 的 处 理 容易 变 得 复杂 化 。 
。 预计 处 理性 能 会 变 低 。 
。 实际 成 果 少 。 


实际 上 ， 现 在 存在 的 多 种 编程 语言 中 ， 采 用 CSI 方 式 的 几乎 没有 。 
Ruby 从 1.9 版 开始 提供 CSI 方式 的 字符 串 处 理 功能 ， 成 为 少 有 的 例外 。 


7.2.16 ”使 用 UTF-16 的 Java 
Java 采用 UCS 方式 ， 内 部 的 字符 编码 方式 选用 UTF-16。 


对 Java 而 言 不 科 的 是 ，UTEF-16 本 壬 的 面 用 已 经 从 当初 发 生 了 变化 。 
当 Java 确立 字符 串 处 理 的 基本 部 分 的 时 候 ，Unicode 还 是 Ver 1.0， 只 
存在 现在 被 称 为 BMP 的 部 分 。 


Java 语言 反映 这 一 状况 。Java 的 字符 型 (char ) 是 16 位 整数 ， 字 符 
串 在 内 部 以 16 位 整数 的 数组 来 表示 。 结 果 ， 束 产生 了 以 下 问题 。 


。 不 属于 BMP 的 文字 (Java 中 称 为 辅助 文字 ) 以 两 个 字符 来 表 
5 


。 求 字 符 串 长 度 时 ， 调 用 含有 一 个 辅助 文字 的 String 的 length 
方法 ， 不 是 返回 1， 而 是 返回 2 。 
。 像 求 字符 串 长 度 这 种 基本 的 字符 串 操 作 ， 也 不 能 使 用 String 类 


本 身 基 于 char 的 方法 ， 而 需要 使 用 基于 代码 点 (CodePoint， 
Java 中 对 文字 编码 的 叫 法 ) 的 新 方法 。 


绽 上 所 述 ， 如 果 想 要 正确 处 理 辅助 文字 ， 不 要 使 用 旧版 Java 提供 的 
API， 必 须 使 用 Java5.0 以 后 版 本 提供 的 API (参见 图 7-6) 。 但 是 ， 
现在 登录 进 Unicode 的 文字 一 次 又 一 次 增加 ， 只 能 处 理 BMP 文字 的 程 
序 已 经 不 允许 了 。 


// 求 字符 串 长 度 
void lengthTest(String s) { 
// 基 于 char 求 字符 串 长 度 
System,out.printf("char len = %d\n", s.length()); 
// 基 于 codepoint 求 字符 串 长 度 
System,out.printf("codepoint len = %d\n", 
s.codePointCount(0, s.length())); 
} 


// 按 文字 循环 
void iterTest(String s) { 
// 基 于 char 对 字符 串 循 环 
for (int charIndex = 0; charIndex < s.length(); charIindex++){ 
int c = S,charAt(charIndex ) ; 
System.out.printf("%x\n", c); 


} 

// 基于 codepoint 对 字符 串 循 环 

for (int codeIndex = 0; codeIndex < s.length(); )t{ 
int c = s.codePointAt(codeIndex); 
System.out.printf("%x\n", c); 
codeIndex += Character.charCount(c); 

} 

} 


图 7-6 BMP 与 辅助 文字 的 处 理 代码 不 相同 的 Java 


制定 Java 时 ，Unicode 仅 限 于 16 位 。Java 没 选 择 可 变 长 的 UTF-8， 而 
0 因而 产生 了 这 样 的 斐 剧 。 说 是 时 机 的 恶作剧 也 罢 ， 真 
是 太 可 惜 了 。 


虽说 这 样 ， 看 看 图 7-6 的 程序 ， 基 于 char 的 程序 和 基于 CodePoint 的 
API， 也 没 那么 复杂 的 差异 。Java 的 字符 串 处 理 的 抽象 化 程度 本 来 就 
不 高 ， 字 符 串 处 理 本 来 就 很 复杂 ， 所 以 API 的 影响 也 束 很 不 明显 。 与 
擅长 字符 处 理 、 各 种 文字 人 处理 都 能 以 人 简洁 的 方式 表现 的 Ruby 那样 的 
语言 相 比 ，Java 的 文字 处 理 怎么 都 显得 见长 。 所 以 ， 现 在 因 采 用 UTF- 
16 而 使 复杂 度 变 得 不 那么 明显 ， 不 知 对 Java 是 好 还 是 坏 。 


7.2.17 ”使 用 UTF-8 的 Perl 


Perl 也 使 用 UCS 方式 ， 内 部 编码 方式 采用 UTF-8。 开 始 束 采用 可 变 长 
的 UTF-8 的 Perl， 没有 Java 中 由 UTF-16 所 引起 的 问题 。 而 且 ， 与 
Java 不 同 ， 字 符 串 不 是 数组 〈 几 乎 不 具有 数组 的 性 质 ) 这 一 点 ， 也 成 
为 不 必 在 意 字符 编码 方式 的 理由 之 一 。 


Perl 的 字符 串 中 有 “utf8 标志 ”。 设 定 了 标志 的 字符 串 ， 是 以 UTF-8 编 
码 的 Unicode 文本 ; 没 设 定 标志 的 字符 串 ， 以 字 节 串 来 处 理 。Perl 原 
来 也 将 文本 数据 及 二 进 制 数据 同样 用 字符 串 处 理 ， 虽 说 是 反映 了 历史 
情况 ， 结 果 是 API 变 得 容易 使 用 了 。 


只 要 读 入 的 字符 串 没有 明确 指定 ， 都 被 看 做 是 utf8 标志 没 设 定 。 为 了 
给 文件 的 输入 设 定 utf8 标志 ， 要 么 用 use open 语句 对 所 有 文件 都 设 
定 ， 要 么 对 每 个 文件 在 open( ) 时 设 定 ， 要 么 以 二 进 制 读 进 来 之 后 再 
设 定 ， 哪 种 方法 都 可 以 (参见 图 7-7) 


# 对 文件 全 体 指 定 

Use open IN => ':euc-jp'; 

Use open OUT => ':utf8'; 

Use open " :encoding (Iso-8859-7) ; 


> 


jEUC- JP 
UTF-8 
入 输出 用 iso-8859-7 


be 
c= 


半 亲 六 
由 莹 声 
HK 


# 对 每 个 文件 进行 指定 
open(I1, "<:utf8", "file"); 


open(1I2, "<file"); 
binmode(1I2, ":utf"); 


# 以 字符 串 为 单位 变换 
use Encode; 

$string = Encode::decode("euc-jp", $data); 
# $data 是 二 进 制 ，$string 是 UTF-8 文本 


图 7-7 Perl 中 指定 字符 编码 方式 的 3 种 方法 


Perl 中 ， 全 部 的 字符 串 处 理 和 正则 表达 式 都 是 以 utf8 标志 为 前 提 而 工 
作 的 ， 只 要 控制 好 输入 输出 ， 以 UTF-8 为 基础 进行 的 文本 处 理 就 不 会 
发 生 任何 问题 。 


至 于 UCS 所 特有 的 由 文字 变化 市 来 的 问题 ，Perl 是 给 Encode 模块 追 
加 一 个 变换 表 来 解决 的 。 要 说 Encode 模块 是 文字 编码 处 理 的 中 心 也 不 
过 分 。 维 护 这 个 模块 的 是 日 本 最 有 名 的 开源 代码 程序 员 小 饲 弹 。 有 一 
种 说 法 是 ， 在 Perl 的 源 编码 发 布 物 中 ， 有 一 半 以 上 都 是 这 个 Encode 
模块 变换 表 ， 真 是 很 了 不 起 。 


7.2.18 用 UTF-16 的 Python 


人 名 的 Python， 在 日 本 的 知名 度 从 现在 才 开 始 增加 。 简 单 总 


Python 也 采用 UCS 方式 ， 字 符 编 码 方式 采用 UTF-166。 与 按 utf8 标 
志 的 有 无 来 区 别 字 符 串 的 Perl 不 同 ，Python 中 表示 二 进 制 数据 的 字 广 
串 的 类 str 与 表示 Unicode 字符 串 的 类 unicode 被 明确 区 别 开 来 。 


6 Python 在 编译 时 ， 根 据 选 项 可 以 将 内 部 编码 方式 选 为 UTF-32。 实 际 上 ， 类 似 Fedora 和 
Ubuntu 的 Linux 中 ，Python 指定 UTF-32 为 内 部 编码 方式 进行 编译 。 


二 进 制 是 sr， 文 本 是 unicode， 听 起 来 有 点 怪 怪 的 。 但 Python 3.0 中 ， 
二 进 制 是 bytes， 文 本 是 str (Unicode 字符 串 ) 。 但 如 果 指 定 用 UTF- 
16 编译 的 话 ， 代 理 对 依然 被 算 成 两 个 文字 。 


7.2.19 ”采用 CSI 方 式 的 Ruby 1.8 


从 以 前 开始 ， 因 为 可 以 不 经 变换 直接 处 理 文本 数据 而 采用 了 CSI 
ko 


但 是 1.8 版 以 前 的 Ruby， 有 一 个 非常 大 的 限制 。 能 够 处 理 的 文字 编码 
方式 只 有 EUC-JP、Shift JIS 和 UTF-8 三 种 。 考 虑 到 世界 上 有 那么 多 
的 文字 集 ， 不 可 否认 这 会 给 人 偷工减料 的 印象 。 不 过 Unicode (UTF- 
8) 履 盖 了 很 广 的 疙 围 ， 在 实用 上 可 以 说 没有 问题 。 


Ruby 1.8 以 前 的 文本 处 理 中 ， 每 一 个 字符 串 对 象 不 之 字符 编码 方式 的 
信息 。Ruby 1.8 中 正则 表达 式 市 有 编码 方式 信息 ， 以 文字 为 单位 处 理 
。 字符 串 对 象 说 到 底 还 是 按 字 节 串 操 作 (参见 图 7- 
8 o 


# 全 部 的 文本 处 理 都 按 EUC- JP 为 基础 
$KCODE= 'e' 
# 全 部 的 文本 处 理 都 按 UTF-8 为 基础 
$KCODE= 'u' 


#UTF-8 对 应 的 正则 表达 式 (用 u 选项 指定 ) 
re = /foo 汉字 邦 WW》 bar/u 

# 以 文字 为 单位 分 割 string 

chars = "abc 犀 WW 汉 字 ".split(//u) 


图 7-8 Ruby 1.8 的 文本 处 理 


2 可 以 指定 对 应 的 编码 方式 (参见 
7-8) 。 


表 7-8 ”Ruby 1.8 中 正则 表达 式 的 字符 编码 方式 选项 


e 


EUC-JP 


给 全 局 变量 $KCODE 设 定 适 当 的 值 ， 可 以 给 不 带 选 项 的 正则 表达 式 指 
定编 码 方式 。 


Ruby 的 字符 编码 方式 的 对 应 与 其 他 的 语言 很 不 相同 。 

。 不 采用 UCS 方式 。 

。 字符 串 里 不 附加 字符 编码 方式 的 信息 。 

。 字 符 串 对 象 一 直 作 为 字 节 串 而 操作 。 

乍 一 看 ， 觉 得 好 像 功能 不 够 ， 实 际 用 起 来 ， 居 然 还 挺 好 。 之 所 以 这 样 
风气 一 变 ， 诞 生 了 与 其 他 语言 不 同 的 字符 串 处 理 方 式 ， 也 许 是 因为 这 
门 语言 生 在 长 年 受 多 字 和 字符 串 处 理 之 兰 的 日 本 。 

汪 然 Ruby 1.8 的 字符 串 处 理 方式 也 个 是 没有 缺 态 。 它 存在 外 下 儿 个 间 
题 。 


。 除 了 事先 舱 入 的 3 种 字符 编码 方式 以 外 ， 不 能 处 理 其 他 字符 编码 
(最 大 的 弱点 ) 。 

。 想 以 文字 为 单位 进行 字符 串 处 理 时 ， 不 经 过 正则 表达 式 就 不 能 
接 处 理 。 


。 在 别 的 语言 中 能 够 做 到 的 由 名 称 及 代码 点 (code point ) 进行 
的 文字 指定 ，Ruby 中 不 行 《参见 图 7-9) 。 


# 由 名 称 指定 aa 
"\x{LATIN CAPITAL LETTER A}\x{GREEK SMALL LETTER ALPHA}" 


# 由 代码 点 指定 aa 弹 
"\x{61}\x{3b1}\x{5F3E}" 


图 7-9 由 名 称 及 代码 点 指定 的 例子 


针对 这 些 问题 ，2007 年 12 月 公布 的 Ruby1.9 改善 了 字符 编码 方式 的 
处 理 。 


7.2.20 ”强化 了 功能 的 Ruby 1.9 


从 Ruby 1.9 开始 ， 在 沿用 1.8 版 及 以 前 的 CSI 方式 的 基础 上 ， 又 进行 
了 几 项 功能 强化 ， 其 基本 方针 列举 如 下 。 


。 作为 正则 表达 式 引擎 ， 将 1.8 版 及 以 前 的 来 目 Emacs 的 正则 表达 
式 引 擎 更 换 为 称 作 “多 车 ”的 引擎 。 


。 让 个 别 字 符 串 也 能 够 附加 编码 方式 信息 。 
。 根据 附加 信息 的 指令 ， 可 以 按 字 符 单 位 进行 处 理 。 
。 也 能 够 追加 用 户 定义 的 编码 方式 。 
。 根据 编码 指示 (coding pragma) ， 可 以 指定 编码 方式 。 
。 和 骸 入 编码 方式 变换 方法 。 
用 Ruby 1.9 的 功能 编 的 程序 大 意 示 于 图 7-10。 


# -*- Coding: utf-8 -*- 
# 文件 开头 的 注释 ， 指 定 本 文件 是 UTF -8 


# 指定 从 文件 中 读 入 UTF-8 
open(path, "r:utf-8") do |f| 


f.eachline do |linel| 
printf "f=%s\n"，1line.encoding # 显示 "f=utf-8" 
print line.encode("sjis") # 变换 为 Shift_JIS 显示 
end 
end 


图 7-10 ”Ruby 1.9 支持 编码 方式 的 例子 
7.2.21 是 UCS 还 是 CSI 


Java、Perl 和 Python 等 采用 的 UCS 方式 ， 从 外 部 读 入 数据 变换 为 
Unicode 后 进行 处 理 。 这 种 方式 可 以 对 包含 于 Unicode 的 文字 进行 统一 
处 理 ， 程 序 结构 变 得 简单 。Unicode 被 设计 成 世界 上 使 用 的 很 多 文字 
集 的 上 位 集合 ， 几 乎 在 所 有 情况 下 都 能 做 得 很 顺利 。 


男 一 方面 ，Ruby 所 采用 的 CSI 方 式 ， 文 本 数据 尽 可 能 不 做 变换 地 进行 
处 理 。 正 如 文字 乱码 那 一 节 说 明 的 那样 ， 由 于 历史 上 的 原因 ， 在 文字 
集 之 间 进 行 变换 上 时， 会 出 现 各 种 各 样 的 问题 。Ruby 1.8 中 ， 只 能 处 理 
EUC-JP、Shift_JIS 和 UTF-8 三 种 编码 方式 。 但 Ruby 1.9 提供 了 更 加 
彻底 的 CSI 方式 的 字符 串 处 理 功能 。 


作为 CSI 方式 的 副作用 ， 用 户 独自 的 字符 编码 方式 的 处 理 也 可 以 定义 
了 。 所 以 ， 在 不 久 的 将 来 ， 像 TRON 码 及 今昔 文字 镜 那 种 比 Unicode 
更 大 的 文字 集 ，Ruby 说 不 定 也 能 够 处 理 。 


米 米 米 


编程 处 理 文字 的 时 候 ， 残 留 着 各 种 各 样 的 历史 事件 和 复 洒 的 问题 。 文 
本 不 能 正确 显示 的 文字 乱码 束 是 其 典型 例子 。 为 了 不 引起 文字 乱码 ， 
需要 对 文字 集 和 文字 编码 方式 有 一 个 正确 的 理解 。 


Unicode 


很 久 以 前 ， 在 计算 机 能 够 处 理 的 文字 只 有 字母 和 几 个 符号 的 时 代 ， 
世界 曾 是 和 平 的 。 但 文字 可 是 文化 。 世 界 上 的 人 类 日 音 生 活 中 所 使 
用 的 不 是 只 有 字母 ， 如 果 不 让 这 些 人 使 用 目 己 的 文字 ， 计 算 机 未 免 
也 太 傲慢 了 点 儿 。 


于 是 ， 各 个 国家 制定 了 表示 本 国文 字 的 标准 ， 各 国 的 文字 也 都 能 
示 了 。 但 这 样 一 来 ， 各 个 国家 都 制定 了 不 同 的 标准 ， 搞 得 软件 在 每 
个 国家 部 得 修改 ， 国 际 软件 开发 成 本 有 些 没 谱 。 


为 了 解决 这 个 问题 ， 就 诞生 了 Unicode， 但 Unicode 的 诞生 经 历 了 太 
多 困难 。 我 认为 主要 有 3 个 原因 。 


首先 是 政治 的 原因 。 当 时 ， 与 制定 文字 集 牵 连 很 深 的 计算 机 ( 硬 

件 ) 厂商 ， 说 实在 话 对 新 的 文字 集 并 不 抱 很 大 希望 ， 所 以 ， 他 们 对 
Unicode 基本 上 表现 部 很 消极 。 男 一 方面 ， 软 件 厂商 为 了 降低 软件 
国际 化 的 成 本 ， 无 论 如 何 都 需要 一 个 能 用 的 文字 集 。 标 准 的 确定 怎 
么 说 部会 市 来 利害 冲突 和 政治 问题 。Unicode 虽然 还 有 各 种 问题 ， 

但 终 客 成 为 能 用 的 文字 集 ， 不 愧 是 个 奇迹 。 真 是 太 好 了 。 


其 次 是 文化 的 原因 。 文 字 是 文化 的 反映 ， 每 个 人 都 有 各 目的 喜好 。 
比如 说 ， 高 桥 这 个 名 字 中 使 用 的 高 字 ， 有 的 是 “点 横 头 ”( 二 ) 下 边 
为 “ 口 ” 字 的 “ 口 高 >， 有 的 是 下 边 像 个 梯子 的 “梯子 高 ”。 


不 在 意 的 人 看 起 来 ， 只 是 觉得 字体 不 同 。 但 在 意 的 人 看 来 ， 好 像 是 
完全 不 同 的 文字 。 仅 JIS 定义 的 文字 集中 ， 吏 有 像 “ 富 ”及 “ 遇 ” 这 种 
区 别 很 小 的 字 。 这 种 状况 下 ， 作 出 让 所 有 国家 的 所 有 人 都 满意 的 决 
定 征 不 可 能 的 。 对 于 Unicode 的 决定 即便 苹 那些 心怀 不 满 的 人 ， 也 
认为 它 大 体 是 妥当 的 。 


最 后 是 技术 的 原因 。 当 初 ，Unicode 假定 世界 上 所 有 的 文字 都 能 中 
括 在 16 位 以 内 ， 也 就 是 65536 个 文字 的 范围 内 。 对 于 日 常生 活 中 只 
用 127 个 文字 的 ASCII 码 就 能 满足 的 美国 人 来 说 ， 认 为 超越 6 万字 
的 巨大 空间 已 经 足够 了 ， 某 种 意义 上 也 是 没 办 法 的 事 。 但 是 事实 
上 ， 不 要 说 6 万 字 ，Unicode 5.0 已 经 收录 了 9 万 多 字 ， 而 且 还 没完 
。 从 这 一 点 可 以 得 到 教训 , “肯定 没 问题 * 这 种 迷信 是 很 危险 


作为 日 本 的 程序 员 ， 长 期 进行 与 文子 编码 相关 的 工作 ， 得 到 的 经 验 
束 是 文字 编码 是 环 手 的 问题 。 真 心 期 待 这 些 麻 烦 的 问题 会 因 
Unicode 而 越 来 越 少 。 问题 是 随 着 新 文字 集 的 出 现 ， 短 期 性 的 视 乱 


第 8 章 正则 表达 式 
8.1 ”正则 表达 式 基础 


正则 表达 式 是 处 理 字 符 串 时 所 用 的 记述 方法 ， 在 “从 日 志文 件 中 提取 像 
日 期 的 东西 > 以 及 “从 文章 中 找 出 似乎 是 拼写 错误 的 东西 ”等 情况 下 很 有 
用 。 本 世 介 绍 正则 表达 式 及 其 基本 使 用 方法 。 


8.1.1 检索 “ 像 那样 的 东西 ” 


在 处 理 字符 串 的 时 候 ,， “包含 ‘Ruby’ 的 字符 串 ” 这 种 表达 是 比较 简单 

的 。 但 有 些 情况 下 ， 想 用 更 模糊 一 点 的 规则 来 记述 字符 串 的 处 理 ， 比 
如 “含有 以 了 开始， 以 1 结尾 的 单词 等。 但 计算 机 不 届 人 的 语言 ， 所 
以 必须 用 计算 机 慌 的 语言 来 表达 这 种 指示 。 这 种 记述 规则 束 古 正则 表 
达 式 。 在 Ruby 里 ， 以 斜 杠 (Y) 包 起 来 的 部 分 标 为 正则 表达 式 ， 比 如 
下 面 这 种 使 用 方法 。 


A Ed 


/Ruby/ # 子 付 申 "Ruby" 


/P.*1/ # 以 P 开始 ， 以 1 结尾 


正则 表达 式 是 描述 字符 串 模 式 的 一 种 微型 语言 ， 可 以 将 其 看 做 是 艇 入 
到 Ruby 中 的 其 他 语言 。 因 为 它 是 个 独立 的 语言 ， 与 答 主 语言 

(Ruby) 有 着 完全 不 同 的 语法 ， 所 以 有 时 会 成 为 混乱 的 根源 。 但 阁 能 
好 好 掌握 其 语法 ， 则 没有 什么 比 它 更 方便 的 了 。 
在 UNIX 系列 操作 系统 上 ， 很 多 语言 和 工具 都 能 使 用 正则 表达 式 。 
Ruby、Perl、AWK、sed、ed、vi、Emacs 以 及 less 等 都 能 用 。 正 则 表 
达 式 的 语法 本 质 上 都 一 样 ， 但 各 个 工具 都 独立 地 实现 了 正则 表达 式 ， 
语法 上 多 少 有 些 差 异 。 这 里 讲解 Ruby 里 使 用 的 正则 表达 式 。 


用 正则 表达 式 的 模式 匹配 能 做 些 什 么 呢 ? 这 里 介绍 其 一 部 分 功能 。 比 
如 ， 如 有 果 使 用 模式 匹配 功能 ， 以 下 的 工作 会 变 得 很 容易 。 


。 从 日 志文 件 中 取出 像 日 期 的 东西 。 

。 从 HTML 文件 中 取出 像 URL 的 东西 。 

。 典型 的 拼写 错误 检索 。 
“ 像 那 样 的 东西 > 这 种 表达 ， 用 模式 匹配 以 外 的 方法 很 困难 。 而 这 就 是 
模式 匹配 的 拿手 好 戏 。 
8.1.2 ”正则 表达 式 的 语法 


正则 表达 式 由 称 为 元 (meta) 字符 的 特殊 功能 字符 和 其 他 字符 组 成 。 
元 字符 有 点 像 编程 语言 中 的 控制 结构 。 正 则 表达 式 中 的 元 字符 见 表 8- 
1 。 


表 8-1 正则 表达 式 的 元 字符 


| | 与 任意 单个 字符 
| [a-z] 与 a 到 z 之 间 任 何 一 个 相 匹配 
i [^a-z] 与 a 到 z 以 外 的 字符 相 匹 配 
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除 元 字符 以 外 的 字符 与 处 理 对 象 的 字符 本 映 相 一 人 怪 。 比如 ，/FOO/ 与 
FOO 的 字符 排列 相 一 致 。 前 面 讲 述 的 尼 关 /解释 如 下 。 


。P 是 普通 字符 ， 与 字母 P 本 吴 相 匹配 。 
。“.” 与 任意 字符 相 匹配 。 
*» 表 示 前 面 的 模式 “.”* 重 复 任意 次 。 

。 | 与 字母 1 本 身 相 匹配 。 
用 人 类 语言 表述 以 上 内 容 ， 束 是 “以 P 开始 ， 以 1 结尾 ”的 字符 串 。 也 
职 是 说 ，Perl 及 Pascal 都 能 与 之 匹配 。“.*?" 也 包含 0 次 ， 所 以 PI 也 能 
与 之 匹配 。0 次 很 容易 被 起 记 ， 需 要 特 另 I 注意 ° 
下 面 详细 讲述 正则 表达 式 的 语法 。 
普通 字符 
除 表 8-1 中 所 示 的 元 字符 以 外 的 普通 字符 ， 都 与 该 字符 目 身 相 匹配 。 
也 束 是 说 ，a 与 a 目 身 相 匹配 。 不 含 元 字符 的 字符 串 的 模式 丈 是 该 字 
符 串 本 号。 比如 与 Ruby 相 匹 配 的 模式 就 是 Ruby 。 
字符 集合 


用 括号 ([ ]) 括 起 来 的 部 分 为 字符 集合 。 与 括号 内 所 含 的 每 一 个 字符 
都 匹配 。 比 如 ，[abcdef] 能 与 小 写字 母 abcdef 中 的 任何 一 个 相 匹配 。 


字符 集合 中 ， 用 中 划 线 (-) 来 指定 范围 。 所 以 ，[abcdef] 可 以 用 
[a-f] 来 代替 。 


字符 集合 中 ， 第 一 个 字符 是 [J 时 ， 表 示 取 反 。 就 是 说 不 与 括号 ( 


字符 集合 中 ， 想 指定 ^、-、] 时 ， 如 果 开 头 不 是 \， 则 将 -或 ] 放 在 开头 。 
另外 ， 这 些 字 符 的 前 面 如 果 放 一 个 反 斜 枉 (\) 进行 转 义 ， 就 会 作为 普 
通 字 符 来 处 理 。 
任意 一 个 字符 


表示 任意 一 个 字符 的 模式 是 <”。 但 是 ,“.” 不 能 匹配 换行 符 〈 除 了 后 面 
讲述 的 指定 m 选项 的 情况 ) 


比如 说 ， 以 P 开始， 任意 2 个 字符 之 后 跟 1 的 模式 束 是 P.1。“.? 间 稼 与 
下 面 要 讲述 的 “重复 ”一 起 使 用 。 


重复 

模式 的 语法 中 也 应 有 控制 结构 。 正 则 表达 式 的 控制 结构 是 重复 。 根 据 
上 限 与 下 限 的 不 同 ， 正 则 表达 式 的 重复 有 多 种 写法 (参见 表 8-2) 
每 种 都 是 对 前 面 的 模式 进行 重复 。 


表 8-2 重复 的 写法 


比如 说 ，a* 是 指 a 重复 0 次 以 上 ，at+ 是 指 a 重 复 1 次 以 上 。a? 是 指 
a 重复 0 次 或 1 次， 意思 就 是 a 或 者 无 。 


仙 梦 与 懒 情 


正则 表达 式 中 ， 有 从 最 左边 开始 选择 最 长 匹配 的 最 左 最 长 原则 。 但 有 
些 情况 下 ， 这 很 让 人 为 难 。 


比如 ， 为 了 提取 字符 串 http://www.ruby-lang.org:80/ja /开头 的 http:， 
用 .*: 去 匹配 ， 结 果 却 匹配 到 了 http://www.ruby-lang.org :。 


原因 就 在 于 正则 表达 式 中 重复 结构 的 信 禁 (greedy) ， 一 定 要 找到 与 
模式 相 一 致 的 最 长 的 字符 蝇 。 在 正则 表达 式 的 贪 禁 匹配 过 程 中 ， 即 使 
遇 到 冒号 也 不 会 停止 扫描 ， 而 是 试图 找到 相 匹配 的 最 长 字符 串 。 


也 就 是 说 ， 继 续 检 索 冒 号 ， 一 直到 字符 串 的 最 后 ， 发 现 * 啊 ， 没 有 
了 ”再 折 回 。 所 以 ， 上 面 的 束 匹 配 到 了 最 后 一 个 冒号 。 这 种 折 回 称 为 回 
洲 (backtrack) 。 


如 有 果 后 面 跟 一 个 重复 系列 的 元 字符 ?， 束 不 再 信 林 ， 而 十 进行 懒 情 
(non-greedy) 匹配。 懒惰 匹 配 时 ， 第 一 次 与 模式 匹配 时 就 停止 检 
索 。 上 面 的 字符 串 用 模式 .*:? 匹 配 时 ， 束 能 得 到 http: 。 


分 组 


重复 是 以 近 前 的 正则 表达 式 为 对 象 的 ，mat+ 是 指 m 与 跟随 其 后 的 1 个 
以 上 的 a。 如 果 想 要 表达 ma 重复 1 次 以 上 ， 就 要 用 括号 括 起 来 ， 变 成 
(ma)+。 这 种 将 模式 绑 定 起 来 的 功能 称 为 分 组 。 


与 正则 表达 式 中 用 括号 括 起 来 的 模式 相 匹配 的 字符 串 ， 可 以 用 \1 等 来 
表示 。 也 束 是 说 ，(.) \1 是 指 连续 两 个 相同 字符 。 在 后 面 使 用 匹配 的 
字符 串 称 为 癌 后 引用 。 


使 用 括号 进行 回 后 引用 的 时 候 ， 因 为 要 在 内 部 保存 数据 ， 程 序 效 率 多 
少 有 点 降低 。 如 果 仅 仅 是 为 了 分 组 ， 不 需要 进行 向 后 引用 的 时 候 ， 就 
可 以 使 用 没有 同 后 引用 的 模式 括号 (?: 和 ) 。 


选择 

从 多 个 模式 中 选 出 一 种 的 元 字符 是 |， 比 如 yes |no。| 与 其 他 正则 表达 
式 的 构成 要 素 相 比 ， 优 先 级 要 低 ，yes | no 可 解释 成 “yes” 或 者 “no”， 
而 不 会 解释 成 “ye” 后 跟着 “s” 或 者 “n”"， 然 后 跟着 “o ”。 那 种 模式 可 以 使 
用 分 组 来 表达 ， 写 成 ye(s|n)o。 


销 斥 


目前 为 止 介绍 的 模式 都 是 以 字符 的 排列 进行 匹配 的 ， 正 则 表达 式 中 ， 
还 有 只 \ 用 指定 位 置 而 不 是 字 符 来 进行 匹配 的 模式 。 这 称 为 锁 点 
(anchor) 。 锁 点 示意 于 表 8-3 中 。 


表 8-3 ” 锚 点 的 例子 


配 前 一 字 


作为 练习 ， 下 面 来 解读 以 下 正则 表达 式 的 意思 吧 
正则 表达 式 1: /F00/ 

这 是 指 FOO， 也 就 是 F、O、O 三 个 字符 排列 起 来 的 意思 。 
正则 表达 式 2: /[A-Z][a-zA-Z1-9]*/ 


2 紧 接 着 是 英文 字母 或 数字 ， 这 是 Ruby 常数 的 
喘 式 。 


正则 表达 式 3 : /(Ruby)+/ 


Ruby 重复 一 次 以 上 ， 能 匹配 Ruby、RubyRuby、RubyRubyRuby..….. 
多 情人 
等 字符 串 。 


正则 表达 式 4: /Dec,?/ 
Dec 之 后 的 “,” 重 复 0 次 或 1 次， 也 就 是 与 Dec 或 Dec, 相 匹配 。 


正则 表达 式 5: /Sun|Mon|Tue|Wwed|Thu|Fri|Sat/ 


与 用 英文 表示 的 一 周 7 天 匹配 。 选 择 (|) 的 结合 强度 弱 ， 匹 配 的 对 象 
不 是 近 前 的 字符 ， 而 是 字符 串 。 


8.1.3 3 个 陷阱 


不 仅 是 在 Ruby 中 ， 在 Penl 及 AWK 中 也 是 一 样 ， 经 常 有 人 说 正则 表 
达 式 很 难 私 。 这 是 有 理由 的 。 除 了 已 经 讲 过 的 它 是 语言 中 的 微型 语言 
De 


记号 多 、 和 密度 高 的 表达 式 


正则 表达 式 用 记号 来 表达 模式 ， 看 上 去 似 有 很 多 记号 。 像 Perl 一 样 ， 
字符 挤 得 密 密 的 ， 看 起 来 像 “ 品 声 ” 一 样 。 而 且 ， 所 有 的 字符 都 有 含 
义 ， 没 有 提供 一 种 可 以 写成 易 读 表达 式 的 选项 。 为 应 对 这 一 问题 ， 出 
现 了 扩展 正则 表达 式 (后 面 会 讲 到 ) 。 


0 次 以 上 的 重复 


写 正 则 表达 式 时 最 容易 在 这 儿 卡 党。 有 人 学 了 正则 表达 式 很 长 时 间 ， 
也 写 了 很 多 正则 表达 式 ， 到 这 儿 还 是 容易 出 错 。 


比如 说 ， 表 达 “a 重复 0 次 以 上 ， 后 面 跟 着 bb” 这 个 模式 的 a*bb 与 
ccbbaabb 进行 匹配 ， 会 匹配 上 哪 一 部 分 呢 ? 是 aabb 吗 ? 但 答案 是 前 面 
的 bb。 


0 个 a， 后面 跟着 bb， 束 变 成 了 人 商 单 的 bb。 正则 表达 式 匹配 字符 串 
时 ， 从 左 侧 开始 扫描 ， 第 一 次 匹配 上 时 束 停 止 y， 后 边 即 使 有 更 适当 
的 ， 也 不 会 再 往 后 检索 了 。 如 有 果 要 保证 有 1 个 以 上 的 a， 可 以 写成 
a+bb， 但 也 不 是 每 次 都 能 保证 有 1 个 以 上 的 a。 


信 禁 型 匹配 
另 一 个 容易 卡 住 的 地 方 是 前 面 讲述 的 ， 正 则 表达 式 的 扫描 是 贪 梦 的。 
我 们 已 经 说 过 ， 这 可 以 用 懒惰 型 匹配 来 解决 。 还 有 一 种 指定 方法 ， 将 
模式 写成 [^:]*: 的 样 了 ， 意 指导 号 以 外 的 字符 重复 0 次 以 上 ， 之 后 
跟着 冒号 ”。 


8.1.4 正则 表达 式 对 象 


面 问 对 象 语 言 Ruby 中 ， 所 有 数据 都 是 对 象 。 也 束 是 说， 正则 表达 式 
也 是 对 象 。Ruby 程序 中 正则 表达 式 对 象 写成 /.*/ 的 样子 。 


如 果 想 写 文 件 路 径 那 种 含有 很 多 斜 杜 (/) 的 模式 时 ， 每 次 都 写 
成 /\Vusr(\Vlocal)?\Vbin/ ， 这 样 用 了 很 多 表示 转 义 的 反 斜 杠 
() ， 束 会 搞 得 很 复杂 。 


在 灵活 性 方面 很 拿手 的 Ruby， 为 这 种 情况 准备 了 

像 %r 1/usr(/local)?/bin! 中 的 %r1! 这 种 正则 表达 式 。! 可 以 是 任 
意 字 符 ， 应 该 成 对 出 现 。 如 有 果 用 括号 ， 上 式 束 变 成 
TT%r{/usr(/1ocal)?/bin} ° 


正则 表达 式 对 象 可 以 用 正则 表达 式 类 的 类 方法 生成 。 程 序 中 由 组 合 字 
符 串 生成 正则 表达 式 时 ， 使 用 类 方法 更 自然 。 比 如 ， 

.Compile 接受 字符 串 作 为 参数 ， 生 成 相对 应 的 正则 表达 式 
对 象 。 


Regexp.compile( "RE") 


类 方法 参数 市 过 来 的 字符 串 中 ， 如 有 果 出 现 与 元 字符 相同 的 字符 ， 寿 不 
想 让 其 表 以 特别 的 意义 ， 可 以 对 元 字符 进行 转 义 ， 使 其 失去 特别 的 意 


比如 ， 调 用 Regexp .escape ， 为 了 消除 其 参数 带 过 来 的 字符 串 中 字 

符 含 有 的 元 字符 意义 ， 该 函数 就 会 返回 在 字符 串 中 加 入 了 反 斜 杠 的 字 

一 Ws 串 做 正则 表达 式 ， 就 能 做 出 匹配 Pp.*] 本 身 的 正则 
达 式 。 


Regexp.escape("P.*") 
#=> "PN\\,\\*" 


8.1.5 ”选项 


Ruby 正则 表达 式 末 尾 和 斜 杠 的 后 面 ， 可 以 为 这 个 正则 表达 式 添 加 选项 ， 
如 图 8-1 所 示 。 


区 分 大 小 写 
展开 一 次 

# 文字 代码 为 EUC 
定 多 个 选项 


图 8-1 选项 的 例子 
可 以 指定 的 选项 示 于 表 8-4 中 。 
表 8-4 正则 表达 式 的 选项 


段 定 是 EUC 字 符 串 进行 


假定 是 SJIS 字 符 串 进行 了 


和 
人 | 
段 定 是 UTF-8 字 符 串 进行 匹配 


使 用 i 选项 ， 则 正则 表达 式 匹 配 的 时 候 ， 不 区 分 字母 的 大 小 写 。i 指 


ignore case ° 

0 选项 表示 只 展开 一 次 。Ruby 的 正则 表达 式 和 字符 串 中 ， 以 #{} 包 起 
来 的 部 分 ， 可 以 填 入 任意 表达 式 的 值 ， 这 称 为 展开 。 正 则 表达 式 附 市 
0 选项 时 ， 展 开 只 限于 第 一 次 。o 指 once。 

m 选项 表示 多 行 匹 配 模式 。 通 常 ，. 不 匹配 换行 符 ，^ 和 $ 也 匹配 字符 串 
中 途 的 换行 符 ， 但 使 用 m 选项 ， 则 将 多 行 看 做 是 一 个 整体 字符 串 。 
这 样 一 来 ， 不 需要 特别 换行 处 理 ， 束 能 跨越 多 行进 行 匹 配 。. 也 能 匹配 
换行 待 ，^ 也 只 能 做 到 匹配 字符 串 头 ，$ 则 只 能 做 到 匹配 字符 串 尾 。m 


指 multi-line 。 


附加 x 选项 后 ， 可 以 在 正则 表达 式 中 有 意义 的 分 隔 处 加 上 空格 或 注 

释 。 这 种 扩展 正则 表达 式 ， 比 起 难 读 的 正则 表达 式 来 ， 可 以 写 得 明日 

4 。 比 如 2007-05-03 这 样 的 日 期 ， 可 以 用 下 面 的 正则 表达 式 来 匹 
i 


/\d{4}-?\d{1,2}-?\d{1,2}/ 


用 扩展 正则 表达 式 ， 加 上 缩 进 和 注释 ， 可 以 写 得 更 加 易 懂 。 


附加 了 x 选项 的 正则 表达 式 中 想 要 匹配 空格 时 ， 用 \s。x 表示 


extended ° 


剩 下 的 选项 e、s、u、n 是 指 文字 代码 ， 分 别 是 EUC-JP、Shift_JIS、 
UTF-8、NONE 〈 字 节 串 ) 的 意思 。 但 Ruby 1.9 里 ， 每 一 个 文件 指定 
一 种 文字 代码 ， 几 乎 没有 以 正则 表达 式 为 单位 使 用 这 些 选 项 的 情况 。 
正则 表达 式 对 象 的 方法 示 于 表 8-5 中 ， 只 有 6 个， 其 中 还 有 3 个 是 同 
一 方法 。 结 果 ， 正 则 表达 式 对 象 的 本 质 只 有 “匹配 ”这 一 点 了 “。 正 则 表 
达 式 的 类 方法 示 于 表 8-6 中 。 


表 8-5 ”正则 表达 式 对 象 的 方法 


re =~ str 即 match 


casefold? 是 否 不 区 分 大 小 写 


对 应 的 文字 编码 


正则 表达 式 的 字符 串 表 
外 


表 8-6 ”正则 表达 式 类 的 方法 


ET 
元 字符 的 转 义 


三 | Tm 过 2 
dE 


8.1.6 ”正则 表达 式 匹 配 的 方法 


正则 表达 式 匹 配 使 用 =~ 方法 或 match 方法 。=~ 方法 在 匹配 成 功 时 ， 
返回 代表 匹配 处 位 置 的 整数 〈 字 符 串 开头 是 0) ， 相 当 于 以 下 代码 中 
的 第 1 行 。 

match 方法 在 匹配 成 功 时 ， 返 回 代表 匹配 信息 的 MatchData 对 象 ， 
相当 于 以 下 代码 中 的 第 2 行 。 匹 配 不 成 功 时 ， 两 种 方法 都 返回 nil。 


/P.*1/ =~ "Perl" # => 0 
/P.*1/.match("Perl") 


# => <MatchData:0Ox401b8> 


匹配 所 使 用 的 =~ 方法 在 字符 串 类 中 也 有 定义 ， 刚 才 所 示 代 码 像 下 面 这 


样 左右 对 调 ， 也 具有 同样 意义 。 


"Perl" =~ /P.*1/ # => 0 


但 有 一 点 应 当 注 意 。 当 =~ 两 边 都 是 字符 串 时 ， 右 边 作为 模式 来 解释 。 


"perl" =~ "P.x*1" # => 0 


| | 


从 match 方法 的 返回 值 MatchData 中 ， 可 以 获取 匹配 位 置 、 部 分 匹 
配 〈 括 号 括 起 来 的 部 分 ) 、 对 象 本 身 ， 以 及 匹配 前 后 的 字符 串 。 部 分 
匹配 的 下 标 指定 为 0 时 ， 可 以 取出 匹配 全 体 。 

MatchData 类 的 方法 示 于 表 8-7。 实 际 使 用 例 示 于 图 8-2 。 


表 8-7 MatchData 类 的 方法 


begin (n) 第 n 次 部 分 匹配 包 


) 
oem 
offset (n) 
下 AN 


共 
# 
# = 
# 
# 


m.offset(2) 


图 8-2 ”正则 表达 式 的 使 用 方法 


8.1.7 ”特殊 变量 


Ruby 中 有 起 源 于 Perl 的 特殊 变量 。 以 $ 开 头 的 这 些 变量 ， 有 使 程序 变 
得 丑陋 的 倾 问 ， 所 以 容易 让 程序 员 们 的 讨 慌 。 但 有 一 种 好 处 ， 对 于 那 


种 只 用 一 次 ， 写 完 就 扔 的 短程 序 而 言 ， 使 用 特殊 变量 可 以 使 程序 变 得 
简短 。 与 正则 表达 式 相关 的 特殊 变量 示 于 表 8-8。 


表 8-8 与 正则 表达 式 相关 的 特殊 变量 


NR 
最 后 的 Matchpata (与 regexp.1last_match 相同 ) 
最 后 的 匹配 字符 宫 


| 
ES 
s” | 位 于 匹配 前 的 字符 吓 
Cr 
匹配 最 后 括号 的 字符 串 

第 n 个 括号 相对 应 的 字符 串 (n 为 1 2，3 等 ) 


8.1.8 字符 串 与 正则 表达 式 

正则 表达 式 的 目的 就 在 于 匹配 字符 串 ， 与 字符 串 关 联 束 是 它 的 全 部 意 
义 。Ruby 中 字符 串 对 象 也 使 用 很 多 的 正则 表达 式 。 这 里 讲解 字符 串 对 
象 里 使 用 的 正则 表达 式 。 

与 正则 表达 式 相关 的 字符 串 对 象 的 方法 示 于 表 8-9 。 

表 8-9 与 正则 表达 式 相关 的 字符 串 对 象 的 方法 


条 又 
配 


全 久 
更 新 字符 串 的 一 部 分 
部 分 字符 串 检索 


守 串 置 
rindex (re) 从 后 面 开始 的 index 
rr 


split (re) 子 付 晶 


EE 
ET EL 


奥 
er Creer | 
人 
口 
割 


[index] 与 [rindex] 是 检索 部 分 字符 串 的 方法 。 可 以 指定 正则 表 
达 式 来 代替 部 分 字符 串 。“[] ”与 “[]= ”是 取出 部 分 字符 串 的 方法 ， 可 
以 用 正则 表达 式 来 指定 位 置 。 

8.1.9 _ split 的 本 质 

分 割 字符 串 的 方法 split ， 与 正则 表达 式 组 合 起 来 能 实现 很 多 功能 。 
首先 ， 用 固定 字符 串 (1 个 字符 ) 分 割 字符 串 时 用 下 面 的 写法 。 


"a,b,c".split(",") 
# => [Taw "bm， "cn] 


同样 ， 也 可 以 用 正则 表达 式 来 分 割 ， 以 下 是 用 ,或 者 :来 进行 分 割 。 当 然 
可 以 用 更 复杂 的 模式 。 


本 2 ed 


可 以 像 下面 这 样 用 HITML (或 XML) 的 标签 部 分 来 分 割 ， 以 数组 的 
方式 取得 标签 包 起 来 的 部 分 


str.split(/<.*?>/) 


如 有 果 不 想 去 挥 标签 部 分 ， 而 古 将 其 原封 保存 下 来 ， 可 以 像 下 面 这 样 ， 
用 括号 将 模式 包 起 来 。 因 为 用 split 方法 ， 括 号 包 起 来 的 部 分 包含 在 
数组 中 。 


str = "<ul><]1i>a<]li>b</ul>" 
str.split(/(<.*?>)/) 
# 分 割 成 这 种 样子 


# EY "<ul>", wa i "a", "<1i>", Lor "</ul>"] 


8.1.10 ”字符 串 的 扫描 


Split 符 串 ，scan 方法 可 以 像 
下 面 这 样 ， 取 出 与 字符 串 相 匹配 的 部 分 


"foo" ,Scan 1 7 1) 
# => ["f" ,"0"] 


scan 方法 的 正则 表达 式 中 包含 括号 的 时 候 ， 每 个 匹配 萄 会 追加 一 个 
数组 ， 该 数组 由 括号 中 匹配 的 字符 串 构 成 。 也 束 是 说 ， 这 时 的 scan 
方法 返回 由 字符 串 数 组 构成 的 数组 。 


"fo" SB ee ) /) 
# => [["f","o"]] 


scan 方法 后 面 如 果 指 定 了 用 人 花 括 号 ({} ) 括 起 来 的 程序 块 ， 则 对 于 
每 一 个 匹配 ， 都 执行 该 程序 块 。 


"foobarbazfoobarbaz" .scan (/ba./){|s| p s} 
# 输出 以 下 行 


下 面 代码 执行 同样 的 动作 。 它 不 生成 无 用 的 数组 ， 效 率 稍 高 一 点 。 


"foobarbazfoobarbaz".scan (/ba./).each {|s| p s} 


8.1.11 置换 


想 要 置换 与 字符 串 模 式 匹配 的 部 分 ， 可 以 用 置换 方法 。 置 换 方 法 有 4 
种 ， 根 据 用 途 分 别 使 用 (参见 表 8-10) 。 


表 8-10 置换 方法 
不 更 新 返回 nil 


x 


置换 方法 中 的 sub 方法 ， 仅 仅 置换 与 模式 匹配 的 最 初 部 分 。 gsub (g 
指 global) 方法 置换 与 模式 匹配 的 所 有 部 分 。 方 法 名 后 附加 !， 表 明 置 
换 字 符 串 本 身 如 果 模 式 不 匹配 ， 则 返回 nil ;方法 名 后 没有 !， 返 回 

进行 置换 的 字符 串 ， 原 字符 串 不 发 生变 化 (参见 图 8-3) 。 


a = "abcabc" 

a.sub (/b/, 'B') 

# => "aBcabc"(a 没 变化 ) 
新 ) 


因为 不 匹配 ) 


a = "abcabc" 


a.gsub (/b/, 'B') 
# => "aBcaBc" 


图 8-3 置换 的 例子 


几乎 在 所 有 的 情况 下 ， 模 式 都 不 是 去 匹配 固定 字符 串 ， 而 是 要 匹配 各 
种 各 样 的 字符 串 。 很 目 然 ， 想 根据 匹配 结果 决定 用 什么 字符 串 进 行 置 
换 。 对 于 这 一 要 求 ， 有 下 述 两 种 对 应 方法 。 

一 是 使 用 表示 置换 字符 串 中 匹配 结果 的 元 字符 。 在 置换 方法 第 2 个 参 
数 指定 的 置换 字符 串 中 ，\&、\0 是 整个 匹配 部 分 的 字符 串 ，\1，.， 
\9 是 第 n 个 括号 内 匹配 的 字符 串 。 


置换 字符 串 中 可 以 使 用 \`、\" 和 \+。 它 们 与 $$、$' 和 $+ 相对 。 


a = "abcabc" 
a.sub(/[bc]/,'(\&)') 


# => "a (b) cabc" 


二 是 使 用 block。 省 略 置换 方法 的 第 2 个 参数 (置换 字符 串 ) ， 代 之 以 
block。 用 block 的 执行 结 末 来 置换 与 正则 表达 式 相 匹配 的 部 分 。 


"foobarbazfoobarbaz".gsub(/ba./) {|s|s.upcase} 
# =>"fooBARBAZfooBARBAZ" 


置换 字符 串 不 能 使 用 $1 等 特殊 变量 。 因 为 对 字符 串 进 行 运算 那 一 时 
刻 ， 还 没 开 始 匹 配 。 男 外 ， 用 双 引 号 ("" ) 引起 来 的 字符 串 中 ， 如 采 
有 反 斜 枉 〈W ， 必 须 进 行 转 义 处 理 ， 所 以 建议 使 用 单 引号 ('' ) 


用 参数 指定 置换 字符 串 时 ， 常 犯 的 错误 示 于 图 8-4。 


'abbbcd' 
sub (/a (b+) /,"#{$1}") 


Hr 
| 


天 
sub (/a (b+) /, "\1") 
误 
sub (/a (b+) /, "\\1") 
FE 确 


chr(O 


ub (/a (b+) /, '\1') 


ub (/a (b+) /, '\\1') 


! 
~ JW 
HH 


: 
a 
HH 


ub (/a (b+) /) { $1 } 


站 站 WW 站 WW 站 0 


'g 
正 丰 


l 
| 
b=: 


图 8-4 常 犯 的 错误 


第 一 个 错误 在 于 式 子 展开 是 在 调用 gsub 之 前 进行 的 ， 展 开 的 是 匹配 
之 前 的 $1 的 值 。 


第 二 个 错误 在 于 用 双 引 号 ("" ) 将 置换 字符 串 引 起 来 。\1 被 解释 成 
\001， 也 就 是 字 蔬 值 为 1。 


8.2 ”正则 表达 式 的 应 用 实例 与 “多 车 ” 


首先 简单 整理 一 下 正则 表达 式 。 所 谓 正 则 表达 式 ， 是 表达 字符 串 模 式 
° 正则 表达 式 由 字符 本 里、 字符 模式 、 销 点 以 及 重复 
等 组 合 


比如 说 ，a 是 与 字母 a WE "“.” 是 除 换行 以 外 能 与 任 

何 一 个 字符 相 匹配 的 正则 表达 式 。“*" 是 指 其 近 前 的 正则 表达 式 重 复 0 

次 以 上 。 

像 “”、“*” 那 样 ， 能 够 表达 某 种 含义 的 字符 称 为 元 字符 。 正 则 表达 式 的 

0 8-11。 将 元 字符 作为 普通 字符 使 用 的 时 候 ， 在 其 前 面 加 
条 本 LA 和 


表 8-11 ”正则 表达 式 的 元 字符 


上 任何 一 个 

和 a 到 z 以 外 的 字符 

成 单词 的 字符 

单词 的 字符 以 外 

\s | 空 文字 。 em 相同 
ER 
| 
EE So 
EE | 
CE 
ee rrr 


Sy 


守 捉 尾 (车 含 换行 ， 匹 配 前 一 字 


EC 
backspace(O0x08)([] 内 ) 
词 头 或 词尾 〈[] 外 ) 


词 头 亦 非 词尾 


0 


昌 (有 向 后 引用 


有 (无 向 后 引用 


模式 来 指定 位 置 (无 宽度 ) 


(?1) 用 否定 模式 来 指定 位 置 (无 宽度 ) 


ee 束 可 以 写 出 正则 表达 式 的 各 种 模式 来 。 比 如 ， 下 面 
这 样 ， 


就 表示 a 的 后 面 跟 任意 的 文字 。 也 就 是 说 ，a、ab 和 aabc 都 能 匹配 。 
请 注意 ，"*" 是 指 重复 0 次 以 上 ， 单 单 a 也 能 匹配 。 


8.2.1 解析 日 志文 件 的 方法 


现在 来 看 看 正则 表达 式 的 使 用 。 图 8-5 所 示 的 是 HITP 服务 右 Apache 
记录 在 访问 日 志 里 的 信息 。 因 为 一 行 太 长 了 ， 所 以 换行 表示 。 


[TREE 


202 .OK - - [07/Apr/2008:16:36:43 +0900] "GET /~Imatz/20080323 .html FIMTP/L.0"200 5563 


7 "http://www.rubyist .net/~matz/20080323 .html" "Mozilla/5.0 [ja] (Xll;I; Linux 2.6.18-5 i686 


; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13° 


访问 源 的 URL 
图 8-5 ”Apache 访问 日 志 的 例子 


在 这 个 访问 日 志 里 ， 含 有 卫 地 址 (为 了 保护 个 人 信息 ， 图 中 具体 的 IP 
地 址 以 xxx 置换 ) 、 日 期 、HTTP 请 求 、 返 回 码 、 文 件 长 度 以 及 访问 
源 的 URL 等 信息 。 


这 些 信息 ， 我 们 一 看 融 能 简单 地 理解 ， 但 若 要 以 计算 机 容易 处 理 的 形 
式 取 出 则 很 麻烦 。 这 时 候 现 该 正则 表达 式 显 威力 了 。 
首先 取出 IP 地 址 。 想 一 想 IP 地 址 应 该 具有 怎样 的 模式 吧 。 严 谍 一 点 


说 ， 就 是 由 点 (.) 连 起 来 的 4 个 1 到 255 之 间 的 十 进 制 数 ， 也 可 以 认 
为 是 由 点 连 起 来 的 4 个 数 。 这 样 ， 模 式 束 成 为 下 面 这 个 样子 。 


\d+\.\d+\.\d+\.\d+ 


解释 一 下 这 个 模式 。\d 与 数字 匹配 ，+ 是 重复 1 次 以 上 ,\, 匹配 点 
Te 
如 下 的 样子 。 


\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} 


具体 程序 如 图 8-6 所 示 。 图 8-6 的 程序 放 在 文件 logl.mb 中 。 


#! /usr/bin/ruby ee Ee 
ip = Hash.new(0) 生成 哈 希 表 ， 当 访问 不 
ARGF .each do |line| 存在 的 元 素 时 ， 返 回 0 


if /^\d+\-vd+Nv.vd+\v.NdQ+/ =~ line 一 一 一 一 
ip[$&] += 1 对 命令 行 指 定 的 文件 的 
end 每 一 行进 行 匹 配 循 环 
end 
printf "“%15s $s\n", "IP addr", "num" 
ip.each do |ip,n| 


mV 和 ww 人 情 


9 


10 printf "%15s %d\n", ip, n 
11 end 


图 8-6 ”对 IP 地 址 进行 计数 的 日 志 解 析 程 序 


ruby logi.rb logfile 


输入 以 上 命令 局 动 程序 后 ， 输 出 访问 源 的 卫 地 址 和 来 目 该 地 址 的 访问 


次 数 。 


说 明 一 下 图 8-6 所 示 程 序 的 内 容 。 第 2 行 ， 生 成 了 一 个 访问 不 存在 的 
元 素 时 返回 0 的 哈 布 表 。 


3 行 到 第 7 行 ,对 于 由 命令 行 参数 指定 的 文件 的 各 行进 行 循环 操 
人 对 读 入 到 名 为 line 的 局 部 变量 中 的 各 行 ， 执 行 正则 表达 式 的 
Ruby 中 ， 将 正则 表达 式 嵌 入 到 一 对 斜 枉 VY) 中 来 记述 。=~ 是 匹配 运 


算 符 。 为 了 只 匹配 行 首 的 IP 地 址 ， 用 了 表示 行 首 的 正则 表达 式 ^。 


匹配 成 功 的 情况 下 ， 把 哈 希 表 中 该 IP 地 址 对 应 的 哈 希 值 增加 1， 进 行 
计数 。 匹 配 的 字符 串 放 在 变量 $& 中 ， 以 此 为 键 值 操作 哈 希 表 。 


这 里 ， 把 哈 希 表 的 缺 省 值 设置 为 0 惑 起 到 了 作用 。 用 += 运 算 符 给 指定 
的 元 素 计 数 时 ， 一 开始 是 尚未 定义 返回 0， 然后 将 其 加 1， 正 好 是 该 元 
素 的 计数 值 。 

现在 ， 提 取 日 期 信息 ， 取 出 每 个 日 期 中 访问 最 多 的 3 个 URL 吧 。 


从 图 8-5 的 日 志 信息 中 看 ， 日 期 是 [07/Apr2008:16:36:43 +0900] 这 样 的 
形式 。URL 的 格式 是 GET /~matz/20080323.html HTTP/1.0。 


首先 ， 来 考虑 一 下 匹配 这 个 日 志 中 所 含 日 期 形式 的 正则 表达 式 。 


日 期 是 由 两 位 数字 、/ 人 月 的 名 字 (3 个 字符 ) 、/， 以 及 4 位 数字 所 构 
成 。 正 则 表达 式 束 写成 


\d{2}/[A-Z][a-zj[a-z]/\d{4} 


[A-Z] 是 与 A 到 Z 之 间 的 任意 一 个 字符 匹配 的 正则 表达 式 ， 称 为 字 
符 类 。 同 样 ，[a-z] 是 与 小 写字 母 匹配 的 正则 表达 式 。 


另外 ， 访 问 对 象 可 以 用 下 式 取 出 。 


GET [^ ]+ HTTP 


字符 类 中 开头 的 ^ 表 示 取 反 ， 所 以 ，[^] 是 与 空格 之 外 的 字符 相 匹配 的 


针 付 尖 。 


可 是 ， 这 个 正则 表达 式 连 前 后 的 GET 和 HTTP 也 匹配 了 “。 但 要 不 包含 
它们 ， 可 能 把 日 志 中 别 的 部 分 也 匹配 了 。 这 种 情况 下 ， 将 想 要 取出 的 
部 分 用 括号 括 起 来 ， 束 可 以 只 取出 匹配 的 字符 串 。 就 像 下 面 这 样 ， 


GET ([^ ]+) HTTP 


匹配 成 功 以 后 ， 括 号 内 对 应 的 字符 串 可 以 用 $1 等 取出 。 只 要 记 住 这 一 
所 环行 了 ， 第 n 个 括号 内 对 应 的 字符 串 保存 到 $n 中 去 了 。 


使 用 这 些 知 识 ， 编 写 取 出 每 个 日 期 中 访问 最 多 的 3 个 URL 的 程序 ， 如 
8-7 所 示 。 


1 #! /usr/bin/ruby 

2 date = {} 

3 ARGF.each do |line| 

4 if /\d\d\/[A-2Z] [a-z] [a-z]\/\d\d/ =~ line 


5 date[$&] ||= Hash.new(0) 

6 dic = date[$&] 

7 if /GET ([^ ]+) HTTP/ =~ line 
8 dic[$1] += 1 

9 end 

10 end 

11 end 


12 printf "%lSs S$%s\n", "IP addr", "num" 

13 date.keys.sort.each do |d| 

14 puts d 

15 date[d] .sort_by{|k,v| -v}[0..2] .each do |url,n| 


16 printf "$-25s $d\n", url, n 
Hb end 
18 end 


图 8-7 取出 每 个 日 期 中 访问 数 最 多 的 URL 的 日 志 解 析 程 序 


其 基本 结构 与 图 8-6 的 程序 是 一 样 的 。 一 个 区 别 是 ， 为 了 按 日 期 对 
URL 的 访问 次 数 进行 排序 ， 更 改 了 哈 希 表 的 结构 : 从 “TIP 地 址 -~ 计 


数 ” 这 种 单纯 的 哈 希 表 ， 变 成 < 日 期 - { 访 问 URL 一 计数 } 这 种 二 重 哈 

希 与 日 期 对 应 的 哈 希 表 ， 而 这 个 哈 布 表 中 访问 URL 对 应 计数 。 男 一 个 

Us 为 了 计算 每 个 日 期 的 访问 数 的 前 3 名 ， 对 日 期 及 计数 进行 了 
予 o 


特别 是 ， 为 了 以 计数 为 基础 对 哈 希 表 进行 排序 ， 使 用 了 sort_by 方 
法 (为 了 过 序 ， 对 计数 的 符号 进行 了 反 针 ) ， 这 个 技巧 在 很 多 应 用 中 
很 有 效 。 


使 用 正则 表达 式 时 应 注意 以 下 两 点 。 


。 /是 正则 表达 式 的 分 割 符 (开始 及 结尾 标志 ) ， 虽 然 不 是 元 字符 ， 
但 用 作 普 通 字 符 时 有 必要 以 反 斜 杆 进行 转 义 。 


。 取出 匹配 的 字符 串 全 体 时 用 $& ; 取出 括号 里 对 应 的 字符 串 时 用 
$1。 


通过 图 8-6 和 图 8-7 所 示 程 序 的 应 用 ， 从 日 志文 件 中 提取 出 符合 特定 
模式 的 行 就 变 得 轻松 了 。 

8.2.2 ”避免 使 用 $ 的 方法 

但 是 ， 满 是 记号 $& 和 $1 的 程序 看 起 来 可 不 怎么 美观 。Ruby 中 ， 以 
match 方法 代替 =~ 运算 符 ， 职 可 以 在 程序 中 不 使 用 这 些 记 号 了 。 
8-8 所 示 的 程序 是 用 match 方法 重 写 了 图 8-7 的 程序 。 

=~ 运算 符 在 模式 匹配 成 功 的 时 候 ， 返 回 匹 配 位 置 (整数 ) ， 而 
match 方法 在 匹配 成 功 的 时 候 ， 返 回 MatchData 对 象 ， 该 对 象 中 存 
放 着 所 有 关于 模式 匹配 的 信息 。 


另外 ， 不 管 是 =~ 运算 符 还 是 match 方法 ， 失 败 时 都 返回 nil。mnil 看 
做 古 假 ， 第 作为 一 个 惯用 句 放 在 站 的 判断 条 件 里 使 用 。 


1 #! /usr/bin/ruby 

2 date = {} 

3 ARGF .each do |line| 

4 if m = /\d\d\/ [A-Z] [a-z] [a-z]\/\d\d/ .match(line) 

5 date[m[0]]||= Hash .new'(0) | 
6 dic = date[m[0]] 
7 if m = /GET ([^ ]+) HTTP/ .match(line) 

8 dic{[m[1]] += 1 

9 end 

10 end 

11 end 

12 printf "%1l5s %s\n", "IP addr", "num" 

13 date.keys.sort.each do |dl| 

14 puts ad 

15 date[d] .sort_by{|k,v| -v}[0..2] .each do |url,n| 
16 printf "“$-25s %d\n", url, n 

和 end 


图 8-8 使 用 match 方法 的 日 志 解 析 程 序 


如 果 将 MatchData 对 象 放 入 变量 m 中， 则 通过 m[6] 可 获取 匹配 全 
体 ， 通 过 m[n] 可 获取 第 n 个 括号 所 匹配 的 部 分 字符 串 。 用 m[1] 取 
代 $1 到 底 有 多 好 ，$ 有 那么 讨厌 吗 ? 等 等 疑问 你 或 许 也 想 过 ， 但 暂时 


先 别管 这 些 。 


Ruby 1.9 更 进 了 一 步 ， 在 下 面 的 条 件 全 部 满足 时 ， 部 分 匹配 的 结 采 会 
目 动 赋值 给 局 部 变量 。 这 些 条 件 是 ， 正则 表达 式 由 常数 字符 串 指 十 

(不 能 有 变量 赋值 ) ; 用 =~ 运算 从 进行 匹配 ， 使 用 市 名 字 的 部 分 匹 
配 ; 市 名 字 的 部 分 匹配 所 指定 的 名 字 是 有 效 的 局 部 变量 ， 该 名 字 不 是 
既 存 的 变量 。 


使 用 Ruby 1.9 的 目 动 赋值 的 例子 示 于 图 8-9。 


If /(?<first_name>\w+) \s+(?<last_name>\w+)/ =~ "Yukihiro 
Matsumoto" 
p first_name #=> "Yukihiro" 


p last_name #=> "Matsumoto" 
end 


图 8-9 ”使 用 Ruby 1.9 的 自动 赋值 的 例子 
MatchData 类 的 方法 示 于 表 8-12。 
表 8-12 MatchData 类 的 方法 


n 个 


J 


su 
TE 


HK 
TT 
站 


林 
| 
沁 : 
洲 


琳 址 


offset (n) 


FE 
eaeon | 
和 人 本人 


配对 象 字符 串 


也 部 分 之 后 的 
配 部 分 之 前 的 


上 比 局 | 日 


荆 


已 


8.2.3 ”从 邮件 中 取出 日 期 的 方法 


前 几 天 ， 看 了 Mac OS X 的 宣传 录像 ， 其 中 讲解 了 邮件 的 最 新 功能 。 
护 击 邮件 中 看 起 来 像 日 期 的 部 分 ， 日 期 束 会 目 动 排 进 日 历 计 划 中 。 对 
于 计划 多 得 像 委 卢 一 样 的 我 来 说 ， 这 真是 令 人 淡 聚 的 功能 。 

想 想 也 是 ， 我 现在 用 目 制 的 邮件 阅读 右 ， 如 采 想 要 追加 这 样 的 功能 


不 是 不 可 能 。 现 在 束 挑 战 一 下 实现 同样 功能 所 需 的 核心 部 分 一 一 提 
取 “ 看 起 来 像 日 期 的 部 分 ? 吧 。 


看 起 来 像 日 期 ， 说 得 容易 做 着 难 。 目 然 语 言 的 日 期 表示 并 没有 什么 标 
准 ， 表 示 形 式 多 种 多 样 。 为 便于 说 明 ， 我 们 省 去 了 时 刻 。 从 实用 目的 
讲 ， 时 刻 肯 定 也 需要 合适 的 表示 形式 。 


首先 ， 计 算 机 行业 使 用 的 标准 日 期 格式 是 “2009-06-01”， 这 是 由 ISO- 
8601 标准 规定 的 ， 对 应 于 下 面 的 正则 表达 式 。 


\d{4}-\d{2}-\d{2} 


疗 格 来 说 ， 公 元 前 的 年 份 应 这 负 号 。 不 过 估计 人 处理 公 元 前 也 没有 计划 
A 


其 次 ， 可 能 会 遇 到 日 本 式 的 日 期 表示 形式 “2009 年 6 月 1 工 日 "， 这 种 情 
况 可 以 对 应 于 下 面 的 正则 表达 式 。 


[0-9 0-9]+ 年 \s*[0-9 0-9]+ 月 \s*[0-9 0-9]+ 日 


因为 要 对 应 全 角 ， 所 以 模式 有 点 长 了 。\s* 是 为 了 匹配 中 途 可 能 出 现 


的 空格 。 
要 对 应 年 号 ， 年 的 前 面 加 上 下 面 这 些 应 该 更 好 了 。 


(明治 | 大 正 | 昭和 | 平成 | 西 夺 | )\s* 


当然 ， 计 算 日 期 的 时 候 需 要 加 上 各 个 年 号 的 元 年 。 


英文 的 日 期 表示 形式 太 多 了 ， 让 人 人 无所适从 。 上 站 和 完 ， 年 月 日 的 顺序 不 
一 样 。 日 本 的 日 期 表示 形式 几乎 都 是 年 月 日 的 顺序 ， 而 美国 的 一 般 是 
月 日 年 ， 欧 洲 的 一 般 十 日 月 年 。 


02.07.08 


如 果 写 成 上 面 这 个 样子 ， 到 底 是 2002 年 7 月 8 日 (日 本 式 ) ， 还 是 
2008 年 2 月 7 日 (美国 式 ) ， 或 者 是 2008 年 7 月 2 日 《欧洲 式 ) 
A 。 哪怕 有 一 个 4 位 的 公元 年 号 也 好 ， 至 少 能 判断 出 
是 哪 一 年 。 


Ruby 里 有 一 个 库 parsedate ， 在 这 方面 做 了 不 少 工作 。 


require "parsedate" 
puts ParseDate.parsedate(str) 


调用 以 上 代码 会 返回 “年 ~、 月、 日 、 时 、 分 、 秒 、 时 区 和 星期 * 的 数 
组 。 但 要 注意 ， 这 也 存在 上 述 问 题 ， 表 示 并 不 完全 。 


另外 ，Ruby 1.9 已 经 不 支持 parsedate 了 ， 提 供 同 样 功能 的 是 date 
库 ， 请 使 用 Date,parse 方法 。 


8.2.4 ”典型 拼写 错误 的 检索 方法 


编辑 文章 时 ， 重 复 助 词 ( 指 日 语 中 的 “世人 这 六 全 2?) 的 情况 时 有 发 生 。 
见 过 “ 私 地 地 ?这 种 错 吗 ? 其 发 生 原 因 是 这 样子 的 。 


比如 “这 沁 了 尼 站 交付" 这 训话 沪 把 * 汶 7 2 简 涝 ”的 时 候 ， 
首先 删除 了 “> y> 了 J 儿 ”， 然 后 下 意识 地 输 ] 

输入 了 ， 结果 这 人 句 话 变 成 了 “ 简 灞 太太 文法”。 这 种 意 外 的 错误 很 多 ， 

和 图 8-10 为 用 于 检查 这 类 错误 的 脚本 程 
9 


1 ARGF.each do |linel| 

2 print ARGF.file.path, " " 
3 ARGF .file.lineno, ™:" 
4 

5 


line if line. gsub!(/([ 人 入 扩 注 加 人 艺 太 ] )\1i/e, '[[\&]]') 
end 


图 8-10 ”检查 拼写 错误 的 脚本 程序 


这 个 脚本 检查 坦 通过 参 数 传 过 来 的 文件 ， 
在 一 起 的 部 分 ， 束 用 括号 括 起 来 并 告诉 你 。 大 信众 疏 丰 ”看 起 来 
虽然 像 咒 语 一 样 ， 根 据 经 验 ， 两 个 学 符 连 接 的 地 方 最 容易 出 销 。 以 前 
曾 用 了 “两 个 相同 平 假名 连 着 ”检查 策略 ， 但 这 样 就 把 < TZ”*、“< < 
在 ”的 < "等 〈 不 该 匹配 的 ) 也 匹配 上 了 “。 所 以 稍 作 了 些 限制 。 用 
([ 人 站 代 尖 广 太 工 万 ] )\1 这 种 正则 表达 式 ， 来 表现 括号 内 包含 的 平 假 
名 以 及 与 其 相同 的 字符 并 列 。 我 的 程序 是 用 EUC-JP 码 写 的 ， 所 以 正 
则 表达 式 的 后 面 附 市 首选 项 e ， 以 明确 表示 用 的 是 EUC-JP 码 。 置 换 
字符 用 的 是 表达 式 \& ， 用 以 置换 匹配 的 字符 串 。 所 以 ,用 [[\&]] 来 
指定 并 用 [[] ] 把 匹配 全 体 都 括 起 来 。 


还 有 就 是 ， 置 换 用 字符 串 中 的 反 斜 枉 (\) ， 为 了 不 让 它 有 特殊 意义 ， 
不 要 用 双 引 号 ， 推 荐 用 单 引 号 将 其 括 起 来 。 


图 8-9 所 示 脚 本 第 2 行 、 第 3 行 中 ， 用 ARGF .file 输出 正在 读 入 文 
件 的 路 径 和 行 号 。gsub! 方法 在 模式 匹配 成 功 时 ， 返 回 置换 后 的 字符 
串 ， 否 则 返回 nil， 所 以 print 只 打印 匹配 成 功 的 行 。 


8.2.5 “Ruby 1.9 的 新 功能 “电车 ” 

到 1.8 版 为 止 ，Ruby 的 正则 表达 式 的 库 是 基于 为 Emacs 编辑 器 开发 的 
库 ， 使 其 对 应 EUC-JP、Shift JIS 和 UTF-8， 并 追加 了 与 Perl5 的 互 换 
功能 。 这 个 库 虽 足以 应 付 日 常 的 使 用 ， 但 内 部 构造 很 复杂 ， 无 法 再 进 
行 改 善 或 功能 扩展 。 


为 了 打破 这 一 僵局 ，Ruby 1.9 采用 了 称 为 "拖车 ”(oniguruma) 的 新 正 
则 表达 式 的 库 。“ 史 车 ”的 特征 有 以 下 5 后 。 


。 BSD License:; 
对 应 多 种 编码 方式 ; 
Ruby1.8 的 正则 表达 式 库 的 上 位 互 换 ; 


ds 
=】 ™ 


。 局 速 ; 


。 增 加 了 很 多 新 功能 。 


到 Ruby 1.8 为 止 的 正则 表达 式 库 与 “风车 ”在 语法 上 的 差异 示 于 图 8- 
11° 


1 了 文字 Property 功能 

了 十 六 进 制 数字 类 型 (\h、\H) 
了 回 读 功能 
了 仙 禁 型 循环 用 的 元 字符 (?+、*+、++) 
了 文字 集合 内 的 算 符 ([...]、&& 
了 带 名 字 的 捕获 式 集合 以 及 部 分 式 调用 功能 

集合 中 ， 可 以 指定 1 字 节 文字 与 多 字 世 文字 的 范围 
以 以 普通 字符 串 指 定 不 完全 循环 的 范围 
加 了 否定 式 POSIX 方 括号 [:^xxxx:] 
加 了 POSIX 方 括号 | :ascii:| 


性 时 号 时 村 时 对 
二 二 二 三 二 1 


ea ee ee 


再 许可 先 读 循环 
循环 回 数 指定 时 ， 可 以 省 略 最 低 次 数 (9 次 ) 
符 


。 /afn}y?/ 不 再 是 懒惰 型 算 符 


。 检查 无 效 的 向 后 引用 ， 报 告 错误 


图 8-11 ”Ruby 1.8 与 Ruby 1.9 正则 表达 式 的 差异 


基于 “多 车 ”的 新 功能 ， 之 前 无 法 实现 的 一 些 正则 表达 式 匹配 也 能 实现 


以 下 的 正则 表达 式 可 以 用 于 匹配 dad 、eye 这 种 从 前 读 或 从 后 读 都 一 
样 的 回 文 。 


\A(?<a>|.|(?:(?<b>.)\g<a>\k<b+0>))\z 


这 样 写 密度 太 高 了 ， 不 知道 这 是 什么 。 用 扩展 正则 表达 式 ， 加 上 缩 进 
和 注释 重 写 就 变 成 图 8-12 的 样子 。 


|. 
|1(?:(?<b>.) 
\g<a> 
\k<b+0>)) 
\z 


; 弟 3) 
同 的 字符 
TY 上 尾 


亲 亲 亲 半 着 半 和 半 和 宁 


图 8-12 重 写 以 后 的 回 文 匹配 


在 “电车 ”中 ， 用 (?<a>. .. ) 这 种 形式 的 表达 式 给 正则 表达 式 的 一 部 
分 起 名 字 ， 用 \g<a> 这 样 的 表达 式 可 以 递归 调用 起 了 名 字 的 正则 表达 
式 。 这 样 ， 之 前 正则 表达 式 不 可 能 实现 的 舱 套 功能 (比如 对 应 的 括号 
等 ) 也 能 实现 了 。 

好 好 看 看 回 文 的 正则 表达 式 ， 会 知道 这 正 是 回 文 的 声明 性 定义 。 专 家 
员 Dave Thomas 对 此 很 赞赏 ， 感叹 于 “风车 ”所 成 束 的 玉 数 式 编 


DSL 


知道 DSL 这 个 用 语 吗 ? DSL 是 Domain Specific Language 的 简称 ， 
意 指 面向 特定 领域 的 编程 语言 。 这 种 技术 根据 某 个 特定 领域 的 词汇 
和 语法 ， 不 仅 可 以 简化 编程 ， 提 高 生产 性 ， 而 且 有 可 能 让 非 专 业 编 
程 人 员 直 接 编 写 程 序 的 逻辑 。 


DSL 有 内 部 DSL 和 外 部 DSL。 上 所 谓 内 部 DSL， 束 是 往 既 存 的 语言 

里 加 入 特定 领域 的 词汇 ， 使 之 DSL 化 。 比 如 ， 软 件 编译 工具 Rake 

. 0 Rakefile， 就 是 记述 软件 编译 中 各 种 依存 关系 的 
部 DSL。 


task :default =>[:test] 
task :test do 


ruby "test/unittest.rb" 
end 


上 述 Rakefile 片段 里 ， 人 简洁 表达 了 “ 缺 省 任务 是 test”，“test 束 是 用 
ruby 执行 test/unittest.rb” 这 样 的 天 系 。 用 Ruby 实现 内 部 DSL， 最 优 
秀 的 一 点 是 ， 即 便 增 加 了 记述 依存 关系 的 词汇 ， 但 因为 使 用 Ruby， 
所 以 可 以 根据 需要 使 用 Ruby 的 全 部 功能 。make 是 一 个 同样 目的 的 
工具 ， 它 使 用 Makefile 来 表达 依存 关系 ， 因 为 难于 处 理 条 件 分 歧 和 
任务 的 模块 化 ， 关 系 一 旦 变 复杂 ， 记 述 也 会 变 得 非常 困难 。 与 make 
比 起 来 ，Rake 可 以 利用 Ruby 的 编程 功能 、 方 法 定义 、 条 件 分 上 收 和 
循环 等 ， 不 管 关系 有 多 复杂 ， 都 可 以 编程 序 对 应 。 用 脚本 语言 开发 
软件 ， 为 达成 软件 目的 的 词汇 越 加 越 多 ， 因 此 内 部 DSL 决定 了 软件 
开发 的 风格 ， 这 直接 关系 到 软件 开发 的 生产 性 。 


所 请 外 部 DSL， 不 是 扩展 现 有 语言 ， 而 是 面 问 特定 目的 ， 准 备 一 种 
独自 的 语言 。 比 如 ， 访 问 数据 库 的 SQL (Structured Query 
Language， 结 构 化 查询 语言 ) 就 是 DSL 一 个 有 代表 性 的 例子 。 外 部 
DLS 与 Ruby 这 样 的 特定 语言 没有 很 强 的 结合 关系 ， 所 以 既 能 超越 
语言 而 共有 知识 ， 又 能 为 着 特定 目的 而 进行 优化 。 


本 章 所 讲解 的 正则 表达 式 也 可 以 称 作 是 以 实现 模式 匹配 为 目的 的 外 
部 DSL。 从 一 开始 就 嵌入 到 Ruby 语言 中 ， 没 给 人 留 有 DSL 的 印 
象 。 但 正则 表达 式 有 单独 一 门 语言 那么 复杂 ， 这 样 想 来 ， 它 有 独立 
的 语法 ， 特 定 的 目的 ， 满 足 DSL 的 定义 。 


虽然 AWK 等 脚本 语言 也 与 正则 表达 式 这 样 长 期 共存 ， 但 从 提供 正 
则 表达 式 的 代表 性 语言 Perl 6.0 版 开始 ， 与 正则 表达 式 的 天 系 束 变 


了 “。 Perl 得 益 于 其 中 称 为 rule 的 功能 ， 语 言 本 喘 具 备 了 模式 匹配 ， 
同时 应 用 这 些 ， 提 供 了 可 扩展 语言 语法 本 身 的 功能 。 这 可 以 看 作 是 
将 外 部 DSL 正则 表达 式 吸收 进来 而 进行 的 内 部 DSL 化 笑 试 。 


另外 ， 由 内 部 DSL 来 表现 SQL 查询 的 方案 也 已 登场 ， 内 部 DSL 与 
外 部 DSL 的 关系 好 像 一 直 在 变化 。 


不 管 是 哪 一 种 ，DSL 都 直接 天 系 到 生产 性 的 技术 ， 今 后 也 有 必要 多 


第 9 章 整数 和 浮 挟 小 数 


9.1 深奥 的 整数 世界 
整数 的 基本 操作 有 加 、 减 、 乘 、 除 四 则 运算 。 编 写 程序 所 用 的 英文 、 


数字 和 符号 中 没有 x ( 乘 ) 和 = 〈 除 ) ， 所 以 用 * 和 /来 代替 。 以 下 是 
Ruby 的 例子 。 


请 注意 5:2 的 结果 不 是 2.5， 而 是 2。 除 法 运算 的 结果 ， 因 编程 语言 的 
不 同 而 有 所 不 同 。 在 Ruby 中 ， 整 数 运算 结果 只 计 整 数 ， 除 法 运算 是 
售 去 余数 后 所 得 的 结果 。 计 算 余 数 的 运算 符 是 % 。 


puts 5%2 # => 1 


对 于 数 的 操作 ， 还 有 比较 运算 (参见 表 9-1) 。 有 了 四 则 运算 和 比较 
运算 ， 束 可 以 写 人 简单 的 计算 程序 了 。 试 写 一 个 计算 阶乘 ! 的 程序 吧 。 


1 所 谓 阶乘 (factorial) 是 指 对 于 某 个 数值 n ， 从 1 到 n 的 所 有 整数 的 乘积 。 数 学 中 n 的 阶乘 
n ! 来 表示 。4! = 24，1!=1,， 但 0!=1 


表 9-1 数 的 比较 运算 


si 


用 归纳 法 定义 阶乘 ， 束 如 下 面 这 样 。 


若 n=1， 阶 乘 为 1 
若 n>1， 阶 乘 为 n* ( (n-1) 的 阶乘 ) 


程序 上 大 都 采用 归纳 法 的 定义 ， 使 用 北 归 画 数 调用 ? 来 实现 (参见 图 
21) 为 了 便于 说 明 ， 程 序 用 C 语言 来 编写 。 程序 的 执行 结果 示 于 图 
9-2 9 


2 所 请 递归 函数 调用 ， 是 指 在 某 函 数 A 中 再 次 调用 A 函数 本 身 。 


#ijnclude <stdio.h> 
#ijnclude <stdlib.h> 


int fact(int n)t{ 
if(n == 1) return 1; 
return n * fact(n-1); 


} 


int main(int argc,char **argv)t{ 
int i; 


for (i=1; i<15; i++){ 
printf("fact(%d)=%d\n", i, fact(i)); 


.= 一、 = 


图 9-1 C 语言 的 阶乘 运算 程序 ， 用 了 递归 函数 调用 


fact(1)=1 


fact (8)=40320 


fact (9)=362880 

fact (10)=3628800 
fact (11)=39916800 
fact (12)=479001600 
fact (13)=1932053504 
fact (14)=1278945280 


图 9-2 图 9-1 的 程序 的 执行 结果 ， 计 算 结 果 有 问题 


仔细 看 看 图 9-2， 不 觉得 有 什么 不 对 劲 吗 ? 首先 ，fact(13) 的 结 
是 1932053504 (1, 932, 053, 504) ， 但 不 是 13 与 fact(12) = 
479001600 相 乘 的 结果 。 用 Ruby 来 确认 一 下 吧 。 


puts 1932053504/479001600 # => 4 


而 且 ， fact(14) 的 结果 要 比 fact(13) 的 结果 要 小 。 如 果 是 数学 中 
的 整数 ， 这 样 的 结果 显然 让 人 想 不 通 。 


实际 上 ， 这 正 是 计算 机 中 整数 的 特征 。 

9.1.1 整数 是 有 范围 的 

C 语言 中 有 多 种 表示 整数 的 数据 类 型 (参见 表 9-2) 。 每 种 数据 类 型 能 
够 表示 的 整数 位 数 是 一 定 的 。 位 数 是 指 二 进 制 数据 的 位 数 。 正 如 刚才 


所 说 的 ， 二 进 制 中 的 1 位 称 作 了 1 比特， 也 可 以 说 每 种 数据 类 型 占据 的 
比特 数 是 不 一 样 的 。 


表 9-2 C 语 言 的 整数 型 
有 


能 够 表现 ASCII 码 (英文 、 数 
char 围 


int 


C 语言 的 标准 中 ， 只 规定 了 char<short<int<longzlong long。 极 端 一 
点 ， 即 使 存在 所 有 这 些 数据 类 型 都 具有 相同 位 数 的 C 语言 处 理 系统 ， 
也 不 为 过 。16 位 计算 机 上 的 C 编译 器 中 int 一 般 是 16 位 的 ， 而 有 的 
超级 计算 机 中 short 以 上 全 是 64 位 。 通 常 ， 整 数位 数 多 如 表 9-2 所 
示 “。 


返回 到 图 9-2。C 语言 中 如 果 运 算 结 采 超出 了 规定 的 位 数 ， 不 会 报错 ， 
次 出 的 位 仅仅 说 忽视 了 。 阶 乘 计算 程序 出 现 异 第 的 原因 束 在 于 此 。 


9-1 所 示 的 程序 中 用 int 表示 整数 。 我 执行 这 个 程序 使 用 的 C 处 理 
系统 (Intel Core 2Duo，gcc 4.3.3) ，int 是 32 位 。32 位 能 够 表示 的 
最 大 正 整 数 是 (231 -1) 3 ， 也 就 是 2147483647(2,147,483,647)] 。 


3 为 什么 32 位 能 表示 的 最 大 正 整数 不 是 2* ， 在 9.1.5 节 中 有 说 明 。 


12 阶乘 的 结果 还 在 此 范围 内 ， 但 13 的 阶乘 6227020800 
(6,227,020,800) 已 经 超出 这 个 范围 。 所 以 从 int 溢出 ， 结 果 束 变 得 
很 奇怪 了 。 


使 用 像 C 语言 这 类 整数 位 数 有 限制 的 语言 时 ， 必 须 注 意 能 够 表示 的 数 
值 范围 。 
实际 上 整数 范围 的 问题 ， 是 连 专家 也 可 能 会 出 错 的 难题 。 


比如 ， 在 Linux 等 UNIX 系列 操作 系统 中 ， 时 刻 是 以 从 Epoch 到 现在 
为 止 的 秒 数 来 表示 的 ，Epoch 是 一 个 特定 的 时 间 (世界 协调 时 间 1970 
年 1 月 1 日 姿 晨 0 时 0 分 ) ， 但 存放 这 个 秒 数 的 是 32 位 整数 ， 所 以 到 


2038 年 1 月 19 日 12 时 14 分 7 秒 (日 本 时 间 ) ，32 位 带 符号 整数 所 
1 。 如 果 像 现在 这 样 ，2038 年 以 后 的 时 刻 就 
\ 能 表示 了 。 


在 开发 UNIX 的 20 世纪 60 年 代 末 到 70 年 代 初 ，2038 年 还 是 很 遥远 
的 未 来 ， 而 30 多 年 过 后 如 今 已 经 离 我 们 越 来 越 近 了 “。 估 计 到 2038 

年 ， 时 刻 表 示 将 扩展 为 64 位 整数 ， 或 是 128 位 了 。 时 间 的 表示 是 这 种 
软件 最 基本 的 部 分 ， 升 级 起 来 相当 困难 ， 我 担心 30 年 后 会 像 2000 年 
冲 题 那样 引起 喧嚣 。 


9.1.2 ”尝试 位 运算 

加 减 乘 除 和 比较 是 算术 中 的 基本 运算 。 与 此 对 应 ， 计 算 机 中 还 有 几 个 
特有 的 整数 运算 ， 都 是 利用 整数 在 计算 机 中 以 二 进 制 来 表示 这 一 性 
质 ， 称 为 位 运算 (参见 表 9-3) 。 按 位 或 、 按 位 与 以 及 按 位 异 或 ， 对 
构成 整数 的 各 位 进行 按 位 运算 。 

表 9-3 ”位 运算 符 


按 位 取 反 (bit 
negate) 


<< 左 移 (left shift) 
按 位 运算 在 日 常生 活 中 几乎 不 使 用 ， 来 复习 一 下 吧 。 
按 位 或 ， 两 边 只 要 有 一 个 是 真 ， 结 果 就 是 真 。 按 位 与 ， 两 边 都 是 真 


时 ， 结 采 才 十 真 。 按 位 异 或 ， 两 边 有 一 边 且 只 有 一 边 是 真 时 ， 结 琳 古 
真 。 各 种 按 位 运算 的 例子 示 于 图 9-3。 


按 位 或 按 位 与 按 拉 异 或 
EE | 
oll| lolo| Bol 
ll1l| 本 有 0 | 1 | Wl:lio| 

图 9-3” 按 位 或 、 按 位 与 以 及 按 位 异 或 的 计算 例子 


9-3 显示 了 对 两 个 值 进行 按 位 运算 ， 会 得 到 什么 结 末 。 上 闫 和 左 端 
人 。 解读 此 图 ， 按 位 或 的 结 
下 所 丰 3 


进行 位 运算 时 ， 这 种 按 位 运算 在 二 进 制 数 的 每 一 位 中 进行 。 举 个 例 
子 ， 试 计算 201 |5。201 用 二 进 制 表 示 束 是 11001001，5 用 二 进 制 表 
示 为 101， 运 算 靠 右 对 齐 。 按 照 图 9-3， 每 一 位 边 看 边 写 结果 。 该 位 不 
存在 则 看 做 0。 


11001001 


11001101 


按 位 或 的 结果 是 二 进 制 的 11001101。 变 成 十 进 制 就 是 205。 对 人 来 
说 ， 计 算 按 位 或 很 麻烦 ， 但 计算 机 却 最 拿手 。 


puts 201 | 5 # => 205 


别 的 运算 也 一 样 。 


puts 201 & 5 # => 1 
puts 201 ^ 5 # => 204 


按 位 非 则 是 将 每 一 位 求 反 : 1 变 成 0，0 变 成 1。 
还 有 按 位 运算 以 外 的 运算 ， 那 就 古 移 位 。 


移 位 运算 将 数 看 做 是 一 个 二 进 制 的 0 和 1 序列， 向 左 或 同 右 移动 来 进 
行 计 算 。 石 移 运 算 符 是 >>， 左 移 运算 符 是 <<。 
来 看 看 实际 的 移 位 运算 处 理 吧 。 以 5 为 例 ，5 以 二 进 制 表示 是 101。 向 


左 移 两 位 就 是 10100。 以 十 进 制 表示 则 是 20。 反 过 来 ，20 (10100) 癌 
右 移 一 位 结果 变 成 1010， 十 进 制 则 是 10 (参见 图 9-4) 。 


puts 5<<2 # => 20 (= 5*4) 
puts 20>>1 # => 10 (= 20/2) 


图 9-4 ” 移 位 运算 的 例子 


根据 二 进 制 的 性 质 ， 左 移 一 位 相当 于 将 数 变 成 2 倍 ， 右 移 一 位 相当 于 
将 数 变 成 一 半 。 这 与 十 进 制 数 移动 一 位 变动 10 倍 是 一 样 的 。 


9.1.3 ”操作 特定 的 位 
位 运算 组 合 起 来 ， 可 以 对 存储 在 计算 机 中 的 各 位 进行 自由 操作 。 
计算 机 中 处 理 的 各 种 数据 都 是 以 二 进 制 的 位 来 表示 的 。 文 本 是 由 字符 
所 对 应 编码 的 数字 串 组 成 ， 各 数字 串 最 后 还 是 还 原 成 二 进 制 的 比特 。 
图 像 数 据 是 各 个 点 的 颜色 按 一 定形 式 排 列 ， 最 后 也 还 是 二 进 制 的 比特 
串 。 程 序 所 处 理 的 对 象 ， 甚 至 计算 机 所 执行 的 程序 本 身 ， 说 到 确 都 是 
二 进 制 的 比特 串 。 
也 束 古 说 ， 探 作 二 进 制 位 束 等 于 操作 计算 机 的 数据 。 
基本 的 位 处 理 操 作 有 4 种 。 

1. 取出 特定 位 的 状态 。 

2. 特定 位 置 位 〈 设 为 1) 。 


3. 特定 位 清 零 〈 设 为 0) 。 


4. 特定 位 反 转 。 


要 从 一 连 串 二 进 制 位 中 取出 某 一 特定 位 a 的 状态 ， 该 怎么 办 呢 ? 当 
然 ， 眼睛 一 看 束 能 知道 ， 但 想 想 用 程序 的 方法 取出 来 。 


这 个 功能 可 以 用 按 位 与 (&) 来 实现 。 按 位 与 的 两 方 之 中 ， 只 要 有 一 
方 是 0， 结 果 束 必然 是 0; 一 方 是 1， 男 一 方 的 结果 就 原封 不 动 返 回 。 
所 以 准备 一 个 数 B， 只 需 将 想 取 出 的 那 一 位 置 设 为 1， 其 余 位 置 设 为 
0 就 可 以 只 取出 A 数 中 a 位 的 状态 (参见 
笠 | 9-5 o 


比特 串 A 


比特 串 B ( 掩 码 ) 


计算 机 结 :ai 
图 9-5 he 进 制 数 A 中 特定 位 a 的 状态 的 方法 


仅 生 成 某 一 特定 位 为 1 的 数 ， 可 以 用 移 位 运算 符 。 用 式 1<<n ， 束 可 
以 得 到 仅 某 一 特定 位 为 1 的 数 * 。 


4 位 操作 时 ， 第 位 是 从 最 后 一 位 开始 数 。 按 C 语言 习惯 ， 最 低位 为 第 0 位 。 


像 B 那样 ， 将 操作 限制 在 特定 位 的 数 称 为 掩 码 。 
为 了 取出 整数 A 第 3 位 的 状态 ， 可 以 用 下 面 的 写法 。 


A & (1<<3) 


位 操作 不 仅 可 以 取出 信息 ， 还 可 以 更 新 。 操 作 特定 位 的 时 候 ， 如 采 改 
可 融 麻 烦 了 。 将 操作 限制 在 特定 位 ， 还 是 要 用 


比如 ， 将 变量 A 的 第 3 位 设 为 1， 用 按 位 或 写成 以 下 形式 。 


AAA 


比如 A 是 101 二进制 ) ， 该 式 就 变 成 


= 0b101 | 0b1000 


= 0b1101 


以 下 ， 为 了 明确 区 分 二 进 制 数 与 十 进 制 数 ， 在 二 进 制 数 的 前 面 加 上 
0b> 。 


5 0b 中 b 是 英文 二 进 制 binary 的 首 字 母 。C 语言 中 没有 数 的 二 进 制 表示 ，Ruby 中 这 样 表示 二 
进 制 。 


用 按 位 与 ， 可 以 不 管 原 数 内 容 ， 而 将 其 某 一 位 设 为 1。 


位 清和 零 ， 也 就是 将 某 一 特定 位 设 为 0， 比 设 为 1 要 麻烦 些 。 要 用 到 捧 
9 


A &= ~(1<<2) 


首先 ， 用 按 位 取 反 做 了 一 个 将 特定 位 清 零 所 需要 的 掩 码 。 计 算 与 此 掩 
Ce 


= 0b101 & 0b11111011 
0b001 


最 后 是 位 反 转 ， 也 就 是 1 变 0、0 变 1 。 这 与 置 位 (将 某 位 设 为 1) 几 
平 相同 。 用 按 位 异 或 取代 了 按 位 或 。 


A 人 ^= (1<<3) 


| 


编程 中 频繁 使 用 的 位 操作 ， 最 常见 的 例子 是 标志 位 操作 。 用 位 操作 ， 
可 以 将 多 个 标志 位 (指定 ON 或 者 OFF 的 选项 ) 用 一 个 参数 来 传递 。 
9-6 是 以 C 语言 记述 的 用 位 操作 实现 的 标志 位 操作 的 例子 。 


/* regexp.h */ 
/* 匹配 不 区 分 大 小 写 */ 
#define REG_ OPTION_ IGNORECASE (1L) 
六 使 用 perl 风格 的 扩展 模式 */ 
REG_OPTION_ EXTENDED (REG_ OPTION_ IGNORECASE<<1) 
了 和 从 可 以 ， 区 I 


/* 人 和 $ 忽 视 换行 */ 


#define REG_ OPTION_ SINGLELINE (REG_ OPTION MULTILINE<<1) 

/* 检索 最 长 匹配 ， 像 POSIX regexp 一 样 */ 

#define REG_ OPTION LONGEST (REG OPTION_ SINGLELINE<<1) 
struct regexp *reg compile pattern(char* str, int option); 


/* 使 用 例 */ 
re = reg_ compile pattern(pat, 
REG_OPTION_IGNORECASE |REG_OPTION_ SINGLELINE); 


图 9-6 C 语言 中 标志 位 操作 的 例子 


9-6 中 ， 调 用 假想 的 正则 表达 式 匹 配 函 数 。 末 尾 的 
reg_compile_pattern() 函数 返回 一 个 指针 ， 指 向 对 应 于 参数 传 
递 过 来 的 正则 表达 式 的 字符 串 ， 编 译 以 后 得 到 的 正则 表达 式 结构 。 第 
2 个 参数 是 指定 编译 选项 的 标志 位 ， 用 头 文件 中 定义 的 常数 ( 掩 码 ) 
来 指定 。 想 指定 多 个 标志 位 时 用 按 位 或 。 一 个 标志 位 都 不 指定 时 ， 第 
2 个 参数 为 0。 


9.1.4 ”表示 负数 的 办 法 


8 位 的 整数 可 以 表示 0~255 之 则 的 数 ， 但 这 样 束 不 能 使 用 人 负数 了 。 怎 
么 用 二 进 制 来 表示 人 负数 呢 ? 


有 多 种 方式 可 以 用 来 表示 二 进 制 负数 。 
“于 大 二 本 用 作答 号 位 号 


。 将 整数 的 各 位 反 转 (1 的 补 数 ) 。 


8 位 整数 的 情况 ，?1 用 前 一 种 方法 表示 是 10000001， 用 第 2 种 方法 表 
示 是 11111110 。 


但 负数 一 般 用 2 的 补 数 表 示 。 所 谓 2 的 补 数 ， 是 将 正 数 的 每 一 位 反 
然后 加 1 所 得 的 数 。 比 如 ，-1 的 2 的 补 数 ， 可 以 用 以 下 步 又 来 计 


00000001 ”( 数 1) 
11111110 (位 反 转 ) 


11111111 (加 1) 


2 的 补 数 来 表示 其 他 负数， 会 觉得 有 些 麻烦 ， 但 有 几 个 重要 的 优 


。 可 以 表示 256 个 数 。 采 用 符号 位 方式 或 1 的 补 数 方 式 ，0 和 -0 都 
存在 ， 只 能 表示 255 个 数 。2 的 补 数 方式 没有 这 种 浪费 。 
。 可 以 直接 运算 。2 的 补 数 方式 ， 不 考虑 符号 ， 和 直接 进 行 四 则 运算 
就 可 以 得 到 正确 结果 。 
村 别 是 后 一 种 特性 ， 成 为 2 的 补 数 方式 被 采用 的 最 大 理由 。 采 用 2 的 
补 数 方式 ，8 位 时 能 表示 -128~127。 同 样 ，16 位 时 能 表示 -32 768~32 
767，32 位 时 能 表示 -2 147 483 648~2 147 483 647。 通 常 ， 位 时 ，2 
的 补 数 方式 能 表示 -(1<<(n -DTD) ~ (1<<(n -1))-1 之 间 的 整数 。 


9.1.5 Ruby 的 整数 


学 了 位 操作 ， 再 回 到 阶乘 的 话题 。 图 9-1 的 程序 是 用 C 语言 写 的 ， 下 
面 使 用 Ruby 来 写 。 图 9-7 是 Ruby 的 阶乘 程序 。 


比较 图 9-1 的 程序 (C 版 ) 与 图 9-7 的 程序 (Ruby 版 ) ， 除 了 没有 


main 函数 、 括 号 以 end 代替 等 外 观 上 的 区 别 以 外 ， 并 没有 什么 读 起 
来 不 懂 的 区 别 。 


def fact(n) 


return n * fact(n-1) 
end 
end 


for i in 1..15 
printf "fact(%d)=%d\n", i, fact(i) 
end 


图 9-7 Ruby 的 阶乘 计算 程序 
那么 执行 一 下 试 试 吧 (参见 图 9-8) 。 


fact(1)=1 


fact (11)=39916800 

fact (12)=479001600 
fact (13)=6227020800 
fact (14)=87178291200 
fact(15)=13067674368000 


图 9-8 图 9-7 程序 的 执行 结果 
Ruby 版 的 执行 结果 示 于 图 9-8， 与 图 9-2 的 C 版 执行 结果 比较 一 下 发 
现 ，fact(13 ) 以 后 的 结果 不 同 。 为 什么 Ruby 版 能 得 到 正确 的 阶乘 
结 采 呢 ? 

C 语言 中 ， 能 表示 的 整数 范围 有 限制 ， 演 算 结果 洲 出 了 ， 有 既 没 警告 
没 报错 。 而 Ruby 中 能 表示 的 整数 范围 没有 限制 。 


Ruby 的 整数 有 两 种 ， 一 种 是 范围 有 限制 的 整数 Fixznum (32 位 CPU 是 
31 位 ，64 位 CPU 是 63 位) ， 另 一 种 是 范围 没有 限制 (超过 内 存 容量 


除外 ) 的 整数 Bignum， 根 据 计 算 结果 自动 变换 。 因 为 有 此 功能 ，C 中 
不 能 正确 计算 的 13 以 上 的 阶乘 ， 在 Ruby 中 能 正确 计算 。Ruby 可 以 
计算 非常 大 的 数 ， 用 fact ( ) 函数 ， 可 以 计算 100 的 阶乘 (参见 图 9- 
9) 。100 的 阶乘 用 十 进 制 表示 是 158 位 。 可 以 训 不 费事 地 进行 这 种 计 
算 ， 是 Ruby 的 整数 的 特长 。 


9332621544394415268169923885626670 
0490715968264381621468592963895217 
5999932299156089414639761565182862 
5369792082722375825118521091686400 


00000000000000000000000 


图 9-9 用 Ruby 计算 100 阶乘 的 结果 


Bignum 在 内 部 ， 分 别 保存 符号 和 绝对 值 ， 绝 对 值 以 整数 数组 形式 存 
放 。 数 组 的 各 个 元 素 是 32 位 无 符号 整数 6 ，Bignum 的 内 部 表示 中 可 
以 看 做 是 4294967296 进 数 。 


6 实际 数组 元 


素 的 位 数 因 CPU 及 处 理 系统 而 有 所 不 同 。 


CT 


Bignum 中 符号 另外 保存 ， 与 Fixnum 不 同 ， 内 部 没 用 采用 2 的 补 数 ， 

但 位 运算 在 外 表 上 看 起 来 像 是 采用 了 2 的 补 数 。 对 于 Ruby 的 位 运 

| 负 整 数 的 左 侧 看 起 来 是 无 限 多 的 1。 所 以 ，Ruby 中 如 果 像 下 面 这 
写 : 


printf "%XNXn"， -4 


就 会 得 到 


ee 


这 样 谜 一 般 的 字符 串 。 这 是 因为 左 侧 排 列 着 无 限 的 1， 所 以 (在 十 六 
进 制 时 就 表示 为 无 限 的 f。 


9.1.6 ”挑战 公开 和 密 钥 方式 


关于 计算 机 中 的 整数 ， 我 们 讲解 了 四 则 运算 和 位 处 理 ， 最 后 稍微 介绍 
一 下 整数 的 算法 。 


数学 中 ， 整 数 是 从 古代 就 存在 的 概念 所 以 有 很 多 斑 老 的 算法 。 比如 
称 为 最 古老 算法 的 欧 几 里 得 算法 。 据说 ， 欧 几 里 得 生 于 公元 前 330 
年 ， 的 确 很 古老 吧 。 图 9-10 是 他 发 明 的 用 欧 几 里 得 算法 计算 两 个 数 的 
最 大 公约 数 的 函数 。 


def gcd(x， oY 
1if 


es x 
else 


return gcd(y, x % y) 
end 
end 


图 9-10 用 欧 几 里 得 算法 计算 最 大 公约 数 


另 一 个 很 古老 的 算法 是 判定 素数 的 埃 拉 托 斯 特 尼 筛选 法 。 素 数 是 指 只 
能 被 1 和 其 本 身 整 除 的 数 。 据 说 埃 拉 托 斯 特 尼 生 于 公元 前 275 年 ， 这 
当然 也 是 很 古老 的 算法 。 


图 9-11 十 用 埃 拉 托 斯 特 尼 筛 选 法 计算 100 以 下 素 数 的 程序 。 


sieve = 上 [] 

max = 100 

for i In 2 .. max 
sieve[i] = i 

end 


for i in 2 .. Math.sqrt(max) 
next unless sievel[il] 
(i*i).step(max, i) do |j| 
sieve[j] = nil 
end 
end 


puts sieve.compact.join(", ") 


图 9-11 用 埃 拉 托 斯 特 尼 筛选 法 计算 100 以 下 素数 


这 个 算法 很 简单 ， 用 sieve 《筛子 ) 这 个 数组 记录 被 判定 为 素数 的 数 
和 其 倍数 。 没 有 得 出 的 数 就 是 没有 约 数 的 数 (素数 ) 。 


要 说 整数 领域 的 研究 已 经 很 完美 ， 没 有 新 的 算法 出 现 ， 完 全 没 那 回 事 

儿 。 比 如 公开 密 钥 就 是 利用 整数 性 质 的 新 算法 。 公 开 密 钥 算 法 的 代表 

、 1977 年 ， 跟 欧 几 里 得 与 埃 拉 托 斯 特 尼 比 起 来 ， 完 全 是 现 
话题 。 


所 谓 公 开 密 钥 加 密 具 有 如 下 的 性 质 ， 用 公 和 钥 加 密 的 字符 串 只 有 用 私 钥 

才能 解读 ， 反 之 ， 用 私 钥 加 密 的 内 容 只 有 用 公 钥 才能 解读 。 公 和 钥 密 码 

Dr 
| 作 密 o 


人 简要 介绍 一 下 公 和 钥 密 码 加 密 的 原理 。 假 设 有 两 个 素数 p 和 gq 存在 ， 从 
这 两 个 数 计 算 图 9-12 中 列举 的 数 。 


图 9-12 公开 密 钥 加 密 的 原理 


比如 ，p =3，g =11， 就 成 为 图 9-13 所 示 的 样子 。 这 里 (pqg ，e ) 是 公 
钥 ， (pg ，d) 是 私 钥 。 图 9-14 是 将 密码 及 消息 (整数 数组 ) 进行 加 
密 的 程序 。 实 际 的 公 钥 密码 加 密 程 序 也 是 将 文本 先 变 为 整数 数组 ， 然 
后 再 进行 加 密 。 


33 
1 x (3-1) x (11-1)+1 = 21 
3, 7 


图 9-13 ”公开 密 钥 暗号 的 例子 


def rsa(pq, k, mesg) 
mesg.collect{|x| 
x**k%pq 


end 


| 


图 9-14 ”公开 密 钥 加 密 的 程序 


公 钥 密码 加 密 听 起 来 很 难 ， 事 实 上 只 要 准备 了 密 钥 ， 如 果 不 用 考虑 效 
率 ， 程 序 束 简单 得 有 点 让 人 失望 。 那 么 ， 实 际 加 密 以 后 ， 再 解读 看 看 
吧 (参见 图 9-15) 。 以 公 钥 3 加 密 的 密 文 ， 再 用 私 钥 7 来 解密 ， 束 能 
得 到 原来 的 文本 。 


orig = [7, 13, 17, 24] 
encode = rsa(33, 3, orig) 

# encode => [13, 19, 29, 30] 
decode = rsa(33, 7, encode) 


# decode => [7, 13, 17, 24|] 


图 9-15 “加密 与 解密 的 步骤 


此 例 中 ， 已 经 知道 33 是 两 个 素数 的 积 ， 马 上 得 出 p =3，q =11。 知道 
这 些 ， 很 快 束 能 计算 3 对 应 的 私 钥 是 7。 


但 当 p 与 4q 是 非常 大 的 素数 时 ， 从 积 pq 计算 素数 ( 素 因 数 分 解 ， 并 不 
简单 。RSA 上 暗号 中 一 般 使 用 的 钥 长 (pq 的 位 数 ) 是 1024 位 (二 进 
制 ) 。1024 位 长 的 整数 ， 用 几 千 台 超 级 计算 机 满 负荷 运行 进行 分 散 处 
理 ， 在 现实 时 间 内 ， 也 难以 进行 素 因 数 分 解 。RSA 加 密 的 强度 (解读 
的 困难 程度 ) ， 就 归 因 于 素 因 数 分 解 的 难度 。 


9.2 ”扑朔迷离 的 浮 点 小 数 世 界 

网 进 小 学 的 时 候 ， 算 术 中 学 到 的 数 是 整数 ， 而 且 仪 有 正 整 数 。 升 到 了 
高 年 级 ， 小 数 登 场 了 ， 像 0.2、1.5 等 。 到 了 中 学 ， 数 的 范围 更 扩大 
了 ， 小 数 被 认为 是 实数 的 一 种 。 

9.2.1 计算 机 对 小 数 的 处 理 

计算 机 也 能 处 理 小 数 。 程 序 中 用 含有 小 数 点 的 数 表示 小 数 。puts 


9.2 这 句 Ruby 程序 表示 ， 生 成 0.2 这 个 小 数 ， 然 后 输出 。Ruby 中 的 
所 有 数据 都 是 对 象 ， 所 以 小 数 也 是 对 象 。 表 示 小 数 对 象 的 类 是 Float 


本 来 是 数 ， 起 了 float (漂浮 ) 这么 个 奇怪 的 名 字 。 计 算 机 中 的 小 数 
被 称 为 浮 点 数 (floating point number) ， 由 此 得 名 。 


9.2.2 ”固定 小 数 后 数 不 易 使 用 


所 谓 浮 点 数 ， 是 指 小 数 点 的 位 置 可 以 移动 。 它 与 计算 机 中 数 的 表示 方 
法 有 着 密切 的 关系 。 


计算 机 本 来 只 处 理 整数 ， 事 实 上 人 整数 也 是 二 进 制 的 比特 串 。 所 以 ， 必 
将 含有 小 数 部 分 的 数 变 成 二 进 制 的 比特 串 ( 编 


可 以 考虑 用 几 种 方法 将 小 数 编码 成 二 进 制 。 具 代表 性 的 方法 有 两 种 : 
一 是 抬 高 小 数 进行 整数 化 ， 二 是 使 用 科学 计数 法 来 表示 。 


抬 高 小 数 是 指 将 小 数 放大 ， 比 如 说 100 倍 ! ， 进 行 整数 化 ， 来 表示 小 
数 点 以 下 部 分 的 方法 。 放 大 100 倍 的 方法 ， 能 表示 小 数 点 以 下 两 位 。 
这 种 小 数 表示 方法 称 为 固定 小 数 点 数 (fixed point number) 。 这 种 方 
法 有 时 会 用 到 ， 用 于 处 理 明确 知道 小 数 点 后 的 有 效 位 的 数 。 


固定 小 数 点 数 的 表示 不 用 
倍 (比如 256 倍 ) 。 


一 


进 制 ， 用 二 进 制 的 情况 也 很 多 。 这 种 情况 下 ， 放 大 2 的 n 次 方 


这 种 用 整数 运算 的 方法 计算 小 数 有 速度 高 的 优点 ， 当 然 也 有 缺点 。 假 
设 抬 高 两 位 〈 十 进 制 ， 即 放大 100 倍 ) ， 那 么 1 就 成 为 了 1.00， 小 数 
点 后 的 两 位 就 浪费 了 。 结 果 在 位 数 一 定 的 情况 下 ， 本 来 能 够 表示 的 
数 ， 现 在 只 能 表示 较 小 的 数 了 (整数 部 分 的 浪费 ) ; 十进制 两 位 的 情 
况 ， 只 能 表示 以 0.01 为 单位 的 小 数 “(小数 部 分 的 限制 ) 。 


因为 这 些 理由 ， 固 定 小 数 点 数 的 使 用 不 怎么 广泛 。 
9.2.3 ”科学 计数 法 也 有 问题 
计算 机 中 广泛 使 用 的 小 数 表 示 方 法 是 科学 计数 法 。 科 学 计数 法 是 指 将 


有 效 数 字 和 指数 组 合 起 来 表示 小 数 (实数 ) ， 写 成 2.5 x 104 ， 这 就 是 
25000。 


但 计算 机 是 用 二 进 制 ， 而 不 是 用 十 进 制 来 表示 数 ， 所 以 实际 上 这 个 数 
在 内 部 不 是 以 2.5 和 10 来 记录 的 ， 必 须 变 为 二 进 制 的 比特 串 。 


变 为 比特 串 的 方式 有 多 种 。 以 下 介绍 广泛 采用 的 IEEE754 方式 。 


IEEE754 方式 中 ， 为 了 表示 小 数 ， 单 精度 (float) 用 32 位 ， 双 精度 
(double) 用 64 位 。 有 很 多 CPU 在 计算 浮 点 小 数 时 ， 内 部 用 双 精 度 - 
进行 计算 〈 单 精度 时 ， 将 双 精 度 计算 结果 变 成 单 精度 ) 。 以 下 只 说 明 
双 精 度 。 

2 更 精确 的 有 双 精 度 以 上 的 计算 。 比 如 奔腾 以 后 X86 系列 CPU 用 80 位 长 浮 点 数 用 于 内 部 计 
算 o 


表示 双 精 度 64 位 比特 串 示 于 图 9-16， 使 用 4f x 2e 的 形式 。 


| 

nl 

符号 位 指数 部 尾数 部 
图 9-16 IEEE754 中 double 型 浮 点 数 的 内 部 表示 


f 称 为 尾数 部 分 (mantissa) ，e 称 为 指数 部 分 (exponent) 。 双 精度 
中 ， 指 数 部 分 有 11 位 ， 可 以 表示 +1023 ~ -1024， 也 就 是 可 以 表示 2 的 
1023 次 方 。 


尾数 部 分 有 52 位 。IEEE754 规定 ， 尾 数 部 分 的 首位 始终 归 一 化 为 

1， 所 以 首位 始终 省 略 ^ ， 实 质 有 效 数 字 为 53 位 。 

3 比如 想 表示 48， 可 以 用 3x24 表示 。 所 谓 归 一 化 就 是 将 尾数 部 分 变 成 大 于 等 于 1， 小 于 2 的 
数 ， 写 成 1.5x25 的 形式 。 


4 因为 归 一 化 而 被 省 略 的 位 通称 省 略 位 。 


9.2.4 ”小数 不 能 完全 表示 


人 
[| o 


。 计算 机 中 数 的 表示 有 长 度 〈 位 数 ) 限制 。 
。 计算 机 中 数 的 表示 是 二 进 制 。 


这 与 之 前 讲述 的 计算 机 上 处 理 整 数 时 的 限制 没有 差别 。 但 就 小 数 的 情 
形 ， 有 更 复杂 的 事情 。 


一 是 存在 除 不 尽 的 数 。 比 如 在 计算 器 上 输入 1* 3， 马 上 就 知道 ， 即 使 
很 简单 的 计算 也 会 有 除 不 尽 的 数 出 现 5 。 


5 Ruby 中 的 有 理 数 类 (Rational ) 可 以 正确 表示 数学 上 的 有 理 数 (能 表示 为 分 数 的 数 ) 。 


p 1.0/ 3.0 
# => 0.333333333333333 


来 探讨 。 


更 复杂 的 是 ， 浮 点 数 在 计算 机 内 部 是 以 二 进 制 表 示 的 ， 就 是 能 以 十 进 
制 除 得 尽 的 数 ， 在 二 进 制 也 是 除 不 尽 的 。 比 如 说 ， 小 数 0.2 是 1 除 以 5 
所 得 的 结果 ， 十 进 制 中 能 除 尽 ， 但 二 进 制 中 是 循环 小 数 
(0.0011001100...) 。 


Ruby 中 能 表示 为 0.2， 是 因为 double 精度 高 。 与 实际 值 0.2 足够 接近 
的 数 ， 可 以 表示 为 0.2。 


总 而 言 之 ， 浮 点 数 其 实 是 真实 数 的 近似 ， 所 以 产生 了 限制 。 以 下 几 点 
容 注意 。 


易 忘记 ， 一 定 要 时 时 
浮 点 数 是 有 限 的 
数学 上 有 的 数 有 无 限 多 位 ， 但 浮 点 数 只 能 拥有 有 限 信息 。 单 精度 的 浮 


9 32 位 ， 双 精度 的 只 有 64 位 。 用 这 么 多 位 表示 出 的 数 也 是 有 

浮 点 数 有 误差 

这 与 浮 点 数 的 有 限 性 密切 关系 。 任 意 的 实数 ， 只 要 是 用 有 效 数 子 和 指 

数 的 组 合 来 近似 表示 的 ， 有 效 数 子 的 不 足 部 分 被 位 单 地 忽略 。 多 次 运 

算 后 ， 与 实际 值 的 差 (误差 ) 就 会 积 索 起 来 ， 计 算 结 采 与 理论 值 偏 差 

1 。 误差 的 产生 有 很 多 形式 ， 有 时 会 让 人 陷入 意 想 不 到 
» 丘 O 〇 


对 于 浮 点 小 数 ， 结 合法 不 成 立 
结合 法 是 指 加 法 和 乘法 中 ， 不 管 计算 顺 序 怎样 ， 计 算 结 来 都 相同 的 法 


则 。 对 于 数学 上 的 数 ， 这 个 法 则 在 实数 范围 内 都 成 立 ， 但 在 浮 点 小 数 
中 殊 不 成 立 。 来 看 一 个 具体 的 例子 。 


在 这 个 式 子 中 ，(a+ b) 所 产生 的 误 普 有 被 扩大 的 可 能 。 要 得 到 同样 的 
结果 ， 可 以 写成 以 下 形式 ， 误 差 会 变 小 。 


(axc)+ (bx c) 


9.2.5 ”有 不 能 比较 的 时 候 


虽说 Ruby 中 某 一 浮 点 数 可 以 用 “比较 整 * 的 小 数 来 表示 ， 但 其 内 部 表 
示 却 不 一 定 “ 比 较 整 *。Ruby 里 ， 表 示 出 “1.0”， 只 是 因为 “聪明 的 ”输出 
程序 判定 此 值 与 1.0 足够 接近 而 已 。 


所 以 ， 同 样 表示 为 1.0 的 两 个 值 ， 并 不 能 断定 是 否 真 的 是 同一 个 值 。 
来 看 二 个 合生 


9-17 所 示 为 一 个 含有 小 数 计算 的 简单 程序 。 变 量 one 的 值 为 浮 点 
数 1.0， 变 量 sum 的 值 为 10 个 0.1 相 加 所 得 的 数 。 输 出 两 个 数 的 值 都 
为 1.0。 


one == sum #=> false(!) 
one - Sum #=> 1.11022302462516e-16 


图 9-17 浮 点 数 运算 的 例子 ，0.1 相 加 10 次 不 能 变 成 1.0 
0 结果 却 是 false 。 看 起 来 相同 的 两 个 数 实际 上 并 不 一 
半 。o 


两 个 数 相 减 ， 所 得 的 差 是 1.11022302462516e-16 。 写 成 常见 的 形式 就 
是 0.00000000000000011102230462516。0.1 加 10 次 就 产生 了 这 么 大 的 
误差 。 


这 与 0.1 是 用 二 进 制 表示 的 循环 小 数 有 关 。 假 设计 算是 以 用 二 进 制 能 
除 尽 的 0.5 来 加 10 次 ， 就 不 会 产生 误差 了 。 如 果 不 知 道 浮 点 数 的 内 部 
表示 ， 束 不 可 能 理解 这 一 行为 。 


对 浮 点 数 进行 比较 运算 ， 只 有 两 个 数 在 内 部 表示 是 完全 相同 的 情况 下 
才 判 定 为 相等 。 作 为 铁 则 ， 两 个 浮 点 数 不 能 用 == 进行 比较 。 如 果 有 
进行 比较 的 必要 ， 判 断 条 件 中 两 个 数 的 差 要 写 得 足够 小 。 足 够 小 是 个 
很 难 的 条 件 ， 根 据 处 理 系统 的 不 同 ， 对 于 浮 点 数 ， 足 够 小 的 值 s 有 不 
同 的 定义 。Ruby 中 是 Float : :EPSILON ， 其 值 为 
2.22044604925031e-16。 如 果 差 比 这 个 值 还 小 ， 可 以 认为 是 舍 入 误差 的 
积累 。 这 个 例子 中 ， 误 差 是 1.1102230462516e-16， 比 小 ， 所 以 将 这 
两 个 数 判 定 为 相等 也 行 。 


9.2.6 ”误差 积累 


图 9-17 所 示 的 程序 中 ， 两 个 1.0 不 相等 区 是 因为 误 送 积 素 。 同 样 是 计 
人 
9-18) 。 


one == mul #=> true 
one - mul #=> 0.0 


图 9-18 浮 点 数 运 算 的 例子 ，0.1 的 10 倍 与 1.0 相当 接近 

图 9-17 中 ， 二 进 制 不 能 除 尽 的 数 0.1 相 加 的 结 采 也 是 除 不 尽 的 数 ， 所 
以 束 在 双 精 度 的 表示 范围 内 进行 舍 入 。 计 算 后 舍 入 ， 重 复 10 次 ， 误 差 
就 积累 起 来 了 。 乘 法 运算 只 对 结果 舍 入 1 次， 与 10 次 加 法 相 比 ， 误 差 
要 少 得 多 。 由 此 导出 第 2 条 铁 则 :减少 运算 次 数 。 


9.2.7 不 是 数 的 特别 “ 数 ” 


IEEE754 中 ， 除 了 普通 的 数 ， 还 定义 了 几 个 特别 的 数 。 不 是 数 的 数 ， 

那 是 什么 呀 ? 

这 些 “ 数 ”用 于 不 同 于 普通 数 的 目的 。 

无 限 大 

为 了 表示 在 浮 点 数 范 围 内 无 法 表示 的 大 数 ， 提 供 了 无 限 大 (Inf) 这 个 
特别 的 数 。 无 限 大 用 于 表示 溢出 错误 。C 语言 中 ， 整 数 运算 发 生 溢出 
后 ， 运 算 结 果 会 变 成 某 一 适当 的 值 ， 而 不 产生 错误 。IEEE754 方式 

下 ， 发 生 洪 出 时 ， 不 是 将 结果 变 成 某 一 适当 的 值 ， 而 是 使 用 无 限 大 来 
表示 溢出 错误 。 


零 


零 是 常见 的 数 ， 但 在 IEEE754 中 进行 了 特别 处 理 。IEEE754 中 ， 和 夫 
符号 ， 正 零 和 负 委 要 区 别 对 符 。 可 能 是 在 除 以 零 的 时 候 ， 为 了 将 结 
区 分 为 正 无 限 大 或 是 负 无 限 大 。 

NaN 

NaN 是 Nota Number ( 非 数 ) 的 缩写 。 说 是 浮 点 数 ， 却 又 是 非 数 ， 很 
奇怪 啊 。NaN 作为 结 末 赋 给 没有 定义 值 的 运算 。 比 如 零 除 以 零 ， 结 采 
束 是 NaN。 一 般 认 为 ， 无 限 大 是 为 了 表示 盗 出 错误 ， 而 NaN 是 为 了 表 
示 未 定义 的 结果 错误 。 


NaN 不 是 正常 值 ， 含 NaN 的 运算 结果 依然 是 NaN。 包 括 NaN 自身 ， 
NaN 与 任何 数 都 不 一 致 。 


包含 这 些 特别 值 的 运算 结果 总 结 在 表 9-4 中 。 


表 9-4 含有 特别 数 的 运算 结果 


有 
~ 


9.2.8 ”计算 误差 有 多 种 


浮 后 数 的 运算 会 产生 误差 。 但 同 为 误 装 ， 还 分 为 几 种 。 
舍 入 误差 


循环 小 数 及 无 理 数 等 有 无 限 多 小 数位 的 数 ， 用 位 数 有 限 的 浮 点 数 不 可 
能 完全 表示 ， 必 须 从 某 一 位 售 去 。 而 且 ， 因 为 内 部 表示 是 二 进 制 ， 十 
进 制 中 看 起 来 能 除 尽 的 数 ， 往 往 在 二 进 制 中 是 循环 小 数 。 想 一 想 ， 十 
进 制 的 小 数 0.nln2... 表 示 的 是 图 9-19a 所 示 的 内 容 。 当 然 ， 二 进 制 的 
小 数 0.nln2.…. 表 示 的 是 图 9-19b 所 示 的 内 容 。 


(a) 
n1x10-1 


图 9-19 十进制 与 二 进 制 的 内 部 表示 


比如 ， 为 了 用 二 进 制 表示 十 进 制 小 数 0.1， 就 写成 2 的 可 (因为 小 于 
1， 所 以 怖 是 负数 ) 相 加 的 形式 (参见 图 9-20) 。 若 一 直 持 续 下 去 ， 

用 二 进 制 数 表示 的 十 进 制 数 0.1 就 成 了 0.00011001100110011001100... 
这 种 循环 小 数 。 在 有 效 数字 的 范围 内 进行 舍 和 人， 如 会 产生 舍 入 误差 。 


= 0.03125 -> 0.09375 


= 0.00390625 -> 0.09765625 


= 0.001953125 -> 0.099609375 


图 9-20 “将 十 进 制 小 数 变 为 二 进 制 的 步骤 
最 大 值 溢 出 与 最 小 值 溢出 
当 运 算 结 果 超 出 了 浮 点 数 所 能 表示 的 数 的 范围 时 ， 就 会 发 生 最 大 值 溢 


出 或 最 小 值 次 出 。 超 出 最 大 值 时 称 为 最 大 值 洲 出 ， 超 出 最 小 值 时 称 为 
最 小 值 洲 出 。 


双 精 度 的 最 大 值 定 义 为 FLoat : :MAX ， 其 值 为 
1.79769313486232e+308。 如果 人 硬 要 变 成 整数 ， 束 变 成 图 9-21 的 样 

子 。 前 18 位 以 后 是 有 效 数字 范围 以 外 的 数 ， 没 有 意义 。 与 双 精 度 具 有 
同样 的 64 位 宽度 的 整数 所 能 表示 的 最 大 整数 9223372036854775807 相 
比 ， 可 以 知道 这 个 数 要 大 得 多 。 双 精度 所 能 表现 的 数 的 范围 如 此 宽 
广 ， 好 像 没 问 题 ， 但 大 数 之 间 的 运算 ， 却 令 人 意外 地 很 容易 超出 范 
围 。 如 果 运 算 结果 超越 这 个 范围 ， 就 成 为 无 限 大 。 


179769313486231570814527423731704356798070567525844996598917476803 
157260780028538760589558632766878171540458953514382464234321326889 
464182768467546703537516986049910576551282076245490090389328944075 


868508455133942304583236903222948165808559332123348274797826204144 
723168738177180919299881250404026184124858368 


图 9-21 相当 于 Float: :MAX 的 整数 值 ， 要 比 64 位 整数 值 大 很 多 


还 有 一 点 必须 注意 ， 双 精度 所 能 表示 的 数 的 范围 比 整数 大 很 多 ， 随 便 
将 双 精 度 变 为 整数 ， 很 容易 殉 超 出 整数 的 范围 。 这 可 以 说 是 另 一 种 意 
义 上 的 最 大 值 洲 出 。 


同样 ， 双 精度 的 最 小 值 定义 为 Float: :MIN ， 其 值 为 
2.2250738585072e-308。 如 果 运 算 结 果 (的 绝对 值 ) 比 这 个 数值 还 小 ， 
就 会 发 生 最 小 值 溢出 ， 结 果 被 置换 为 零 。 


非常 大 的 数 之 间或 非常 小 的 数 之 间 进 行 乘法 运算 的 时 候 ， 发 生 最 大 值 
次 出 或 最 小 值 洲 出 的 可 能 性 会 增高 。 数 值 差 别 特别 大 的 数 之 间 也 应 避 
免 乘 法 或 除法 运算 。 


信息 丢失 


与 64 位 整数 相 比 ， 双 精度 所 能 处 理 的 数 要 大 很 多 。 但 是 ， 双 精度 之 所 
以 比 64 位 信息 全 部 处 理 的 整数 所 能 处 理 的 范围 大 ， 是 因为 ( 双 精 度 ) 
数 与 数 之 间 存 在 不 能 表示 的 数 。 特 别 是 对 于 译 点 数 ， 数 值 越 大 ， 能 够 
表示 的 “分 解 能 ” 越 低 。 在 0 附近， 数值 可 以 表示 得 很 细致 ， 离 0 越 
远 ， 所 能 表示 的 数 的 间隔 越 大 。 


看 看 图 9-22。 特 别 大 的 浮 点 数 Float: :MAX 减 去 1.0， 结 果 与 原来 的 
数 Float: :MAX 没有 一 点 变化 。 


max = Float: :MAX 
max_minus 1 = max - 1.0 


p max == max_minus 1 # => true (!) 


图 9-22 ”浮上 点 小 数 的 信息 丢失 从 原来 的 数 中 减 去 1.0， 大 小 不 变 


Float 的 == 方 法 返回 true ， 意 味 着 max 与 max_minus_1 在 内 部 
表示 上 完全 一 致 。 也 了 驶 是 说 ， 不 能 因为 要 处 理 的 数 很 大 ， 束 随 随便 便 
用 双 精 度数 代替 整数 。 数 值 大 的 时 候 ， 本 来 应 该 执行 了 increment ( 值 
增加 1) 操作 ， 但 结果 并 没有 增加 。 两 个 浮 点 数 相 加 的 时 候 ， 两 个 数 
的 指数 部 分 要 一 致 。 计 算 1.0x104 + 2.0x102 的 时 候 ， 首 先 要 变 成 
1.0x104+ 0.02x104 的 形式 ， 然 后 再 计算 结 


1.02 x 104 
= 10200 


如 采 两 个 数 的 指数 部 分 老 别 太 大 ， 指 数 部 分 变 得 一 致 时 ， 较 小 数 的 尾 
数 部 分 会 变 得 太 小 ， 以 至 于 不 能 表示 ， 结 果 束 会 造成 信息 丢失 。 


为 了 避免 信息 丢失 ， 需 要 在 计算 顺序 方面 想 办 法 ， 最 基本 的 是 要 避免 
等 大 数 和 特 小 数 之 间 的 运算 。 比 如 对 很 多 很 小 的 数 进行 合计 ， 如 采 不 
动脑 筋 直接 一 个 个 相 加 的 话 ， 合 计 值 会 越 来 越 大 ， 它 与 每 个 加 数 之 间 
的 差别 也 会 越 来 越 大 。 也 就 是 说 ， 会 发 生 信息 丢失 。 对 浮 点 数 进行 计 
0 


看 一 个 具体 例子 吧 。 图 9-23 所 示 的 程序 要 计算 4 个 值 的 和 : 
10000001.0、0.12345678、0.11111111 和 -10000000.0。 正 确 答案 是 
1.23456789， 单 纯 计算 时 ， 结 果 会 稍微 有 些 不 一 样 。 


10000001.0 
0.12345678 
0.11111111 
-10000000 .0 


口 局 忆 册 


no 
十 有 
Il 
9 


ps# => 1.23456788994372 


图 9-23 ”容易 产生 误差 的 合计 程序 ， 运 算 的 顺序 有 问题 


这 是 因为 数值 差别 特别 大 的 数 a 和 b， 在 计算 时 发 生 了 信息 丢失 。 如 
果 将 计算 顺序 变 成 a-d-b-c ， 结 果 就 变 成 1.23456789， 与 正确 值 一 
致 。 由 此 可 以 看 出 ， 与 乘法 和 除法 一 样 ， 两 个 (绝对 值 ) 差别 极 大 的 
数 进 行 加 法 运算 也 会 产生 误差 。 


对 数值 差别 很 大 的 多 个 数 进 行 合 计时 ， 如 果 像 图 9-24 所 示 的 那样 处 
理 ， 然 后 进行 误 六 补正 ， 束 可 以 避免 误 老 积 素 。 


ar = [ 

10000001.0， 
0.12345678, 
0.11111111， 
-10000000 .0 


Il I 29 


# => 1.23456788994372 


p St+r 


图 9-24 ”使 误差 变 小 的 合计 程序 

不 过 ， 从 图 9-24 的 实际 结果 看 ， 对 Ruby 所 采用 的 双 精 度 实数 ， 重 复 
次 数 少 时 ， 这 种 方法 所 能 修正 的 误差 还 是 有 限 的 °。 这 个 结果 很 遗憾 ， 
修正 前 后 的 结果 都 完全 一 样 。 但 请 记 住 存在 这 么 一 种 方法 。 

位 数 脱 落 


数值 莽 别 极 大 的 两 个 数 进 行 加 法 运算 时 ， 会 发 生 信息 丢失 。 数 值 几 平 
相同 的 两 个 数 进 行 减 法 运算 时 ， 会 发 生 位 数 脱落 。 数 值 相近 的 两 个 数 


相 减 ， 结 果 与 原来 值 相 比 非常 小 ， 有 效 位 数 会 变 少 ， 这 称 为 位 数 脱 
沙 。 比 如 在 图 9-25 的 例子 中 ， 有 效 数字 是 6 位 的 两 个 数 相 减 ， 有 效 数 
字 脱 落 为 仅 有 2 位 。 


- 1.23444x10-2 


= 1.2x10-6 


图 9-25 ”发 生 位 数 脱 落 的 运算 例子 


截止 误差 


浮 点 数 的 大 小 和 精度 都 有 限度 ， 绝 对 无 法 表示 除 不 尽 的 无 理 数 。 到 某 
一 位 稚 止 ， 总 是 有 近似 ， 这 就 产生 了 误差 。 


9.2.9 ”误差 导致 的 严重 问题 


综 上 所 述 ， 肖 点数 有 很 多 称 为 误差 的 陷阱 。 泽 点 数 的 误差 可 能 导致 比 
想象 中 更 严重 的 问题 。 下 面 介绍 两 个 事例 6 。 


6 这 些 事例 是 从 Francisco J. Santistive 先生 的 论文 Robust Geometric Computation(RGC),State of 
the Art 中 引用 的 。 翻 译 参考 了 Radium Software Development 
(http://www.radiumsoftware.com/0506.html ) 。 


事例 1 


1991 年 2 月 25 日 ， 海湾 战争 中 美军 的 爱国 者 导弹 拦截 伊拉克 军队 的 
导弹 失败 ， 导 弹 命中 美军 膏 地 ， 造 成 28 名 士兵 死亡 。 失 败 原因 在 于 ， 
从 导弹 发 射 开 始 经 过 多 少时 间 的 计算 有 误差 。 


事例 2 


1996 年 6 月 4 日 ， 欧 洲 宇 航 局 (ESA) 发 射 的 无 人 阿 丽 亚 娜 5 型 火 

箭 ， 发 射 后 仅 40 秒 就 爆炸 了 。 阿 丽 亚 娜 5 型 火箭 的 开发 ， 花 了 近 10 
年 的 时 间 ， 共 耗资 70 亿美 元 。 搭 载 在 火箭 上 的 器 材 总 价值 近 5 亿美 
元 。 事 故 的 直接 原因 是 ， 在 惯性 基准 装置 (IRS) 内 的 软件 中 ， 将 用 


于 表示 水 平方 网 速度 的 64 位 浮 点 数 变换 成 了 16 位 整数 。 这 个 数值 超 
出 了 16 位 市 符号 整数 所 能 表示 的 最 大 值 32768， 造 成 变换 失败 。 


这 种 严重 事故 虽然 很 少 发 生 ， 但 即使 错误 没 那 么 严重 ， 也 请 不 要 起 
了 ， 浮 点 数 容易 引起 误差 。 


9.2.10 _ BigDecimal 是 什么 


浮 点 数 运算 的 陷阱 可 以 归结 为 两 个 原因 : 一 是 能 够 表示 的 精度 有 限 ， 
二 是 以 二 进 制 表示 。 
这 些 代 价 换 来 的 是 速度 上 的 优势 ， 所 以 这 需要 权衡 。 但 是 ， 也 有 比 起 
运算 速度 ， 更 需要 精度 的 时 候 。 有 不 少 语言 ， 为 了 提高 精度 ， 提 供 了 
专用 的 类 型 或 者 类 。 
标准 Ruby 中 提供 了 BigDecimal 类 ， 它 有 如 下 3 个 特征 : 

。 与 Bignum 一 样 ， 有 效 数 字 上 自动 扩展 ; 

。 以 十 进 制 计算 ; 


看 一 个 使 用 BigDecimal 的 程序 吧 (参见 图 9-26) 。 


require 'bigdecimal' 
a=BigDecimal: :new("0.123456789123456789") 
b=BigDecimal("123456.78912345678", 40 ) 


C=a+b 
puts c # => 0.123456912580245903456789E6 
puts c+4 # => 0.123460912580245903456789E6 


图 9-26 用 BigDecimal 运算 的 实例 

使 用 BigDecimal ， 需 要 加 载 bigdecimal 库 (第 一 行 ) 。 接 下 来 
指定 字符 串 生成 BigDecimal 对 象 (第 2 行 , 第 3 行 ) 。 第 3 行 的 第 2 
个 参数 指定 精度 (有 效 数字 的 十 进 制 位 数 ) 。 


运算 正常 进行 第 4 行 ) 。 即 使 有 整数 等 其 他 类 型 的 数 混在 其 中 ， 也 会 
进行 适当 变换 后 再 运算 〈 第 6 行 ) 。 
最 初 设计 时 ， 会 觉得 怎么 是 以 字符 串 的 形式 给 出 初始 值 呢 ? 仔细 想 


想 ， 几 乎 所 有 的 情况 ， 浮 点 数 都 是 以 十 进 制 的 字符 串 读 进来 的 (数据 
文件 等 ) ， 因 此 非常 合理 。 


9.2.11 能够 表示 分 数 的 Rational 类 


除 不 尽 的 数 中 ， 有 很 多 能 够 以 分 数 表示 的 数 (有 理 数 ) 。 能 够 直接 表 
示 为 分 数 的 是 Rational 有 理 数 ) 类 (参见 图 9-27) 。 


puts 1.quo(4) # => 0.25 
require "rational" 
a = Rational(1,3) # => 正确 的 1/3 


puts a*3  # => 有 理 数 1/1 


p a*3 
puts 1.quo(4)  # => 有 理 数 1/4 


图 9-27 使 用 Rational 类 的 例子 


9-27 的 quo 是 除法 运算 的 方法 ， 返 回 系统 设置 下 能 够 得 到 的 最 佳 
结果 。quo 方法 的 运算 结果 ， 在 加 载 Rational 类 时 是 Rational 
， 未 加 载 Rational 类 时 是 Float 。 


现在 , 与 BigDecimal 一 样 ，Rational 类 位 于 标准 库 中 ， 而 使 其 
像 Bignum 那样 成 为 内 散 类 的 笑 试 也 在 进行 中 。 


没有 常识 的 计算 机 


从 孩提 时 使 用 计算 如 的 时 候 ， 束 很 尺 异 于 这 样 的 事实 ，1 除 以 3 得 
到 的 数 ， 连 加 3 次 却 不 是 1。 


知道 了 1 不 能 被 3 除 尽 ， 也 整理 解 了 从 某 种 程度 上 讲 这 也 是 没 办 法 
的 事 。 但 是 ，1 除 以 10 得 到 的 能 够 除 尽 的 数 ， 连 加 10 次 却 不 是 
1， 这 样 的 事 不 管 怎么 说 都 是 违反 各 识 的 。 


虽然 计算 机 在 一 定 程 度 上 反映 了 现实 世界 ， 但 是 实际 上 它 所 提供 的 
顶 多 只 是 “4j 影 ?”， 经 常会 与 现实 世界 中 人 的 思考 发 生 偏差 。 


计算 机 的 浮 点 数 就 是 特别 容易 违反 常识 的 领域 。 内 部 以 二 进 制 表 示 
数 (0.1 在 二 进 制 中 是 除 不 尽 的 ，10 个 0.1 相 加 不 能 正好 得 到 1) ， 
浮 点 数 计 算 中 有 误差 ， 等 等 ， 很 多 地 方 应 当 注 意 。 结 果 就 成 了 计算 
0 0 


但 是 ， 作 为 高 级 程序 员 ， 应 该 有 更 高 的 目标 。 如 果 计 算 机 中 能 够 目 
然 计 算 的 整数 有 上 限 ， 怠 要 想 办 法 引入 多 倍 长 以 超越 界限 ， 为 了 能 
除 尽 ， 束 引入 有 理 数 等 。 如 何 权衡 计算 效率 以 达到 最 大 限度 的 平衡 
人 


第 10 章 高 速 执行 和 并 行 处 理 


10.1 ”让 程序 高 速 执行 (前 篇 ) 


计算 机 的 处 理 速度 正在 以 尺 人 的 气势 提高 着 。 我 们 现在 使 用 的 计算 
机 ， 比 过 去 的 超级 计算 机 的 性 能 还 要 优 民 ， 而 与 半 世 纪 前 问世 的 计算 
机 相 比 ， 性 能 提升 了 数 十 万 倍 。 


尽管 计算 机 已 如 此 高 速 ， 但 是 人 的 欲望 却 没 有 止境 。 对 于 程序 员 来 
说 ， 程 序 的 执行 速度 像 是 永久 的 课题 。 让 程序 高 速 执行 ， 有 时 甚至 会 
让 人 觉得 , “那么 懂 张 是 要 去 哪儿 ? ” 

下 面 ， 讲 解 一 下 关于 高 速 执行 的 “秘密 ”、“ 界 限 ” 以 及 “战略 ”。 
10.1.1 是 不 是 越 快 越 好 


考虑 程序 高 速 执行 〈 性 能 优化 ) 之 际 ， 要 先 仔细 想 想 。 程 序 高 速 执行 
并 不 是 一 直 所 期 望 的 。 与 其 他 各 种 各 样 的 因素 一 样 ， 性 能 也 要 权衡 利 


次。 如 采 忌 十 视 速度 最 重要 ， 那 么 束 忌 得 准备 最 蜗 速 的 机 器 。 或 许 ， 
还 需要 用 能 够 编写 最 高 速 程序 的 低级 语言 (比如 汇编 来 写 程序 。 


日 是 ， 并 不 是 视 速 度 最 优先 束 一 定好 。 预 算 、 开 发 效率 和 开发 周期 等 
制约 因素 也 都 在 性 能 权衡 范围 之 内 ， 在 提高 速度 方面 所 付出 的 代价 ， 
应 该 只 是 值得 的 那么 多 。 


比如 用 Ruby 写 一 个 程序 ， 人 处理 100MB 的 数据 。 写 程序 伦 了 30 分 
钟 ， 执 行 花 了 2 小 时 ， 加 起 来 是 2 小 时 30 分 。 同 样 的 程序 想 要 在 30 
分 钟 内 执行 完 ， 用 C 语言 写 花 了 8 小时， 结果 怎样 ? 执行 时 间 是 变 和 
了 ， 但 加 起 来 要 8 小 时 30 分 。 哪 一 个 合算 就 不 用 说 了 。 


但 如 采 这 个 程序 每 天 都 重复 执行 ， 每 天 都 要 耗费 2 小 时 等 结果 ， 这 丈 
完全 不 一 样 了 ， 用 C 语言 伦 8 小 时 来 开发 就 更 值得 了 。 


哆 里 跑 呈 再 说 一 授 ， 性 能 需要 权衡 。 通 第 ， 程 序 能 在 必要 的 时 间 内 执 
A 一 味 追 求 高 速 而 什么 制约 因素 都 不 考虑 
人 O 


10.1.2 ”高 速 执行 的 乐趣 与 效率 


对 程序 员 来 说 ， 让 程序 高 速 执行 本 身 是 一 种 智力 上 的 挑战 。 找 出 慢 在 
什么 地 方 ， 推 测 并 改善 问题 点 ， 程 序 执行 瓯 会 变 快 。 就 像 解 开 某 种 谜 
团 一 样 ， 有 种 乐趣 。 改 进 的 结果 ， 可 以 体现 在 明确 的 执行 时 间 上 。 也 
许可 以 说 ， 性 能 优化 的 成 束 感 在 编程 中 让 人 觉得 最 充实 。 


这 倒 不 是 什么 坏事 ， 但 工作 中 光 有 成 就 感 还 是 不 够 的 。 假 设 我 的 笔记 
本 电脑 价值 20 万 日 元 ， 可 以 用 3 年， 换算 一 下 ， 平 均 每 秒 仅仅 
0.00211 日 元 。 我 的 一 小 时 工资 假设 是 760 日 元 (这 比 实际 值 要 低 很 
多 ) 。 为 了 让 程序 执行 快 10 秒 ， 我 花 了 一 小 时 修改 程序 。 要 赚 回 这 一 
小 时 的 钱 ， 那 个 程序 非得 经 常 重复 执行 才 行 。 简 单 计算 一 下 ， 要 执行 
36 000 次 才能 赚 回 760 日 元 。 


.工作 中 在 进行 性 BE 优 化 之 前 ， 必 须 确认 是 否 真有 
必要 提高 速度 。 速 度 提高 到 什么 程度 也 要 事先 估算 。 


10.1.3 ”以 数据 为 基础 作出 判断 


与 普 笛 的 看 法 不 同 ， 编 程 是 文科 因素 占 很 大 比重 的 领域 。 而 性 能 优化 
却 切切 实 实 属于 理科 领域 。 性 能 优化 首 允 要 考虑 客观 性 。 不 要 仅仅 抱 
起 慢 ， 而 要 测定 ， 用 数据 来 说 话 。 


命 
单 ， 命 令 执 行 时 只 要 在 开始 加 上 time 就 行 了 (参见 图 10-1) 。 
10-1 的 格式 是 杠 入 bash 的 time 命令 。 除 此 以 外 ，time 命令 还 有 
多 个 版 本 ， 格 式 有 所 不 同 ， 但 即使 如 此 ， 大 多 都 包含 以 下 3 种 数值 。 


% time ruby sample/fact.rb 20 
2432902008176640000 


real OmO .005S 


USer omo .O005s 
sys OmO .O01s 


图 10-1 time 命令 的 使 用 。 计 算 20 的 阶乘 。 使 用 的 程序 是 Ruby 附带 的 例 程 fact.rb 


。real (总 执行 时 间 ) 。 程 序 从 开始 到 终止 的 执行 时 间 。 有 时 称 
为 total 或 者 elapsed (经 过 时 间 ) 。 


。 USer (用户 消费 时 间 ) 。 程 序 执 行 中 ， 用 户 所 消费 的 时 间 ， 即 
程序 本 吴 的 执行 时 间 。 


。 sys (系统 消费 时 间 ) 。 程 序 执行 中 ， 系 统 调用 (system call) 所 
花费 的 时 间 ， 有 时 称 为 system 。 


程序 执行 得 快慢 ， 虽 然 可 以 用 real 来 判断 ， 但 通过 观察 user 与 
sys 的 比率 ， 可 以 大 体 判断 出 是 程序 本 喘 执 行 慢 ， 还 是 系统 调用 太 多 
而 导致 了 程序 变 慢 。 


也 许 你 没 怎么 意识 到 ， 系 统 调用 花费 的 代价 (时 间 ) 很 多 。 通 常 ， 程 
序 工作 的 用 户 空间 与 系统 调用 所 工作 的 内 核 空间 是 完全 隔离 的 ， 所 以 
系统 调用 需要 遵循 以 下 几 个 步骤 : (1) 将 参数 从 用 户 空间 复制 到 内 核 
空间 ; “(2) 执行 系统 调用 的 中 断 程序 ， (3) 在 中 断 处 理 内 切换 到 内 

核 空 间 。 将 系统 调用 的 结 采 返回 用 户 空间 又 需要 反方 回执 行 这 几 步 。 

所 以 ， 如 果 有 太 多 系统 调用 ， 束 会 引起 性 能 恶化 。 


10.1.4 改善 系统 调用 
现在 就 来 看 看 减少 系统 调用 的 次 数 ， 人 性 能 能 够 改善 到 什么 程度 吧 。 
10-2 所 示 是 将 当前 目 永 中 的 文件 名 按照 文件 更 新 时 间 进 行 排序 的 程 


序 。 这 个 程序 在 500MHz 的 Pentiumlll 上 运行 。 排 序 对 象 是 有 4556 个 
文件 的 目录 (ruby-core 的 邮件 履历 ) 。 结 果 如 下 。 


Dir.entries(".").sort{|a,b| 
File.mtime(a) <=> 
File.mtime(b) 


} 


图 10-2 ”改进 前 程 请 


real Om4.624s 
user Om3.590s 


sys gm .850s 


程序 执行 用 了 4.6 秒 。 系 统 调 用 的 时 间 为 0.850 秒 ， 约 占 总 时 间 的 
20%。 如果 减少 系统 调用 会 有 多 大 效果 呢 ? 


首先 ， 统 计 一 下 图 10-2 所 示 程 序 中 的 File .mtime() 调用 了 多 少 
次 。 在 sort 方法 中 ， 如 果 给 出 程序 块 {1..,,}， 为 了 排序 ， 每 次 比较 
元 素 时 都 要 调用 此 程序 块 。 所 以 ， 程 序 块 的 调用 次 数 比 元 素 个 数 要 多 
很 多 。 稍 微调 整 一 下 上 述 程 序 ， 数 一 数 程序 块 被 调用 了 多 少 次 。 结 
发 现 ， 比 较 元 素 时 程序 块 执行 了 78 270 次 。 为 了 比较 4556 个 元 素 ， 
就 调用 了 程序 块 78 270 次 ， 太 频繁 了 。 每 次 执行 此 程序 块 ， 都 要 调用 
两 次 File .mtime() ， 总 体 上 要 调用 156 540 次 。 


排序 处 理 任务 重 的 时 候 ， 上 典型 的 对 策 是 使 用 施 瓦 将 变 换 (Schwarzian 
Transform) 。 这 是 Randal Schwarzl 设计 的 高 速 排序 法 ， 先 计算 出 比 
较 用 的 值 ， 避 免 比 较 计算 重复 进行 。 施 瓦 深 变换 按 以 下 步 又 进行 。 


1 Randal Schwarz 也 是 Programming Perl 第 1 版 及 第 2 版 的 合 著 者 。 


1. 自 完 ， 对 于 排序 对 象 的 各 个 元 素 ， 计 算 比 较 用 值 ， 与 元 素 本 映 配 
对 ， 组 成 一 个 数组 〈 每 个 数组 元 素 是 一 个 二 元 数组 ) 。 


2. 将 此 数组 的 数组 按照 以 上 计算 的 比较 用 值 进 行 比较 。 

3. 从 排序 后 的 数组 的 数组 中 取出 以 前 的 元 素 。 
上 述 步 又 用 程序 来 表示 如 图 10-3 所 示 。 稍 微 有 点 烦琐 。 事 实 上 ， 在 
Ruby 中 ， 施 瓦 尝 变换 内 风 在 了 sort_by 方法 中 。 用 Sort_by ， 可 


以 不 邯 虚 复杂 的 事情 而 直接 使 用 施 瓦 深 变换 。 使 用 sort_by 的 程序 
如 图 10-4 所 示 。 


Dir.entries("."). 
map{|x| [x,File.mtime(x)]}. 


sort{|la,b| a[1] <=> b[1]}. 
map{|x| x[9]} 


图 10-3 ”使 用 施 瓦 将 变换 的 排序 程序 


Dir.entries(".").sort_by{lal 
File.mtime(a) 


图 10-4 用 sort_by 方法 的 排序 程序 


与 最 初 的 程序 相 比 ， 既 变 得 短小 精怪 ， 又 将 “使 用 此 值 进行 比较 ?的 意 
明确 地 表达 出 来 。 快 点 执行 一 下 看 看 。 其 结果 如 下 。 


real Om0 .263s 
user Om0 .220s 


sys gmg .050s 


总 执行 时 间 从 4.624 秒 减 少 为 0.263 秒 ， 用 户 消 费时 间 从 3.590 秒 减 少 
为 0.220 秒 ， 系 统 时 间 从 0.850 秒 减 少 为 0.050 秒 ， 大 体 上 快 了 17 

倍 。 用 其 他 方法 测定 File .mtime( ) 的 调用 次 数 为 4556 次 ， 大 约 减 
少 为 最 初 的 1/34。 


程序 变 得 更 短 更 易 懂 ， 而 且 执 行 速度 快 了 17 倍 ， 如 愿 以 偿 。 


施 瓦 深 变 换 通 过 事先 保存 反复 计算 的 值 来 判 减 了 计算 量 。 这 古 一 种 称 
为 Memoize 的 高 速 技术 。 在 计算 中 ， 时 间 与 空间 通常 可 以 交换 。 保 存 
计算 结果 要 占用 多 余 的 内 存 ， 作 为 回报 ， 能 够 节省 时 间 。Memoize 技 
术 在 各 种 情况 下 都 可 以 用 于 提高 速度 。 


10.1.5 “数据 可 靠 吗 
或 许 这 次 只 是 偶尔 做 得 好 。 关 于 time 的 测定 结果 ， 好 像 需 要 再 多 讲 


ynY 


首先 重要 的 是 ， 像 Linux 这 种 多 任务 操作 系统 ，CPU 始终 用 于 执行 多 
个 进程 。 所 以 ， 用 time 所 测 的 总 执行 时 间 会 受到 其 他 进程 的 影响 。 
ee 用 户 消费 时 间 加 上 系统 消费 时 间 与 总 执行 时 间 不 


还 有 一 点 ， 就 是 误差 。bash 的 time 命令 表示 到 小 数 点 后 3 位 。 考 
虑 到 其 他 进程 的 影响 ， 操 作 系 统 的 时 钟 性 能 等 因素 ， 对 于 非 实 时 操作 
系统 的 Linux， 时 间 达 不 到 小 数 点 后 3 位 〈1 毫秒 ) ， 顶 多 也 就 小 数 点 
后 2 位 (1/100 秒 ) 。 


而 根据 操作 系统 的 缓存 与 换 页 的 不 同 ， 虽 执行 同样 的 命令 ， 但 执行 时 
间 有 可 能 极为 不 同 。 


考虑 到 这 些 情况 ， 在 测定 执行 速度 时 ， 有 必要 注意 以 下 条 件 。 
。 避免 测定 太 短 的 时 间 。 
。 反复 测定 。 
测定 太 短 的 时 间 (比如 1 秒 以 下 ) ， 误 差 太 大 ， 得 不 到 有 意义 的 结 


果 。 男 外 ， 为 了 尽 可 能 排除 其 他 进程 以 及 缓存 与 换 页 的 影响 ， 反 复 测 
定 和 要 达 一 定 的 次 数 ， 去 掉 测 定 结果 中 性 能 极 差 的 儿 个 ， 观 察 总 体 倾 


10.1.6 ”只 需 改 善 瓶 颈 


性 能 优化 中 ,“ 因 为 是 排序 ， 所 以 号 用 施 瓦 次 变换 ”这 种 条 件 反 射 式 的 
对 策 并 非 总 管用 。 大 到 一 定 程 度 的 程序 ， 问 题 是 不 是 真 的 在 于 排序 部 
。 a ° 为 了 合理 提高 速度 ， 确 立 恰 当 的 策略 是 很 必 


为 此 ， 首 先 必须 理解 帕 雷 托 法 则 。 帕 雷 托 法 则 又 称 80/20 法 则 ， 即 
80% 的 数值 是 由 20% 的 构成 要 素 产 生 的 。19 世纪 后 半 叶 ， 由 意大利 经 
济 学 家 Vilfredo Federico Damaso Pareto 发 现 而 得 名 。 由 帕 雷 托 法 则 可 
知 ， 有 20% 的 努力 可 以 得 到 巨大 回报 ， 而 有 80% 的 努力 得 不 到 多 少 回 
报 。 在 得 不 到 回报 的 地 方 ， 不 管 怎么 努力 都 是 徒劳 的 。 


oe Knuth 也 提 人 到， 通常 一 半 以 上 的 执行 时 间 都 耗费 在 程序 中 不 到 
4% 的 部 分 。 


2 Donald Knuth 是 计算 机 科学 家 。 他 开发 了 TeX， 撰 写 了 多 卷 本 《计算 机 程序 设计 艺术 》。 


这 些 耗费 了 大 半 以 上 执行 时 间 的 部 分 称 为 瓶 贷 。 对 和 翔 贷 以 外 的 部 分 ， 
不 管 倾注 多 少 劳力 ， 都 是 在 浪费 。 对 于 只 耗费 尽 执 行 时 间 1% 的 部 

分 ， 费 了 半天 功夫 ， 即 使 处 理 时 间 缩 短 了 50%， 总 执行 时 间 也 只 是 缩 
短 了 0.5%。0.5% 的 速度 改 矫 ， 念 怕 还 抵 不 上 测定 误差 。 反 过 来 ， 耗 费 
80% 执行 时 间 的 部 分 ， 束 算 执 行 速度 只 提高 20%， 忌 执行 时 间 束 会 所 
局 16% 。 


改善 瓶 贷 在 性 能 优化 中 钙 最 最 基本 的 。 不 先 确 认 席 贷 束 进行 融 速 化 处 
理 征 不 行 的 。 


确认 一 下 刚才 程序 的 瓶颈 在 哪儿 吧 。 判 定 瓶 颈 ， 可 以 用 profiler 这 
一 工具 。Ruby 在 执行 时 ， 解 释 絮 中 附加 了 -rprofile 选项 ， 束 可 以 
利用 profiler 了 。 假 设 图 10-2 所 示 的 改进 前 程序 保存 在 文件 
sort1.rb 中 ， 像 下 面 这 样 执 行 。 


% ruby -rprofile sorti.rb 


程序 的 执行 结果 请 参见 图 10-5， 各 栏 的 含义 请 参照 表 10-1。 


% cumulative self self total 


time seconds seconds calls ms/call ms/call name 


41.10 47.59 47.59 156540 0.30 0.40 
File#mtime 

37.85 91.42 43.83 1 43830.00 115780.00 
Array#sort 

12.92 106.38 14.96 156541 0.10 0.10 
Kernel.respond_to? 

8.12 115.78 9.40 78270 0.12 0.12 Time# 
<=> 

0.03 115.81 0.03 1 30.00 30.00 
Profiler_.start_profile 

0.01 115 .82 0.01 由 10.00 10.00 
Dir#each 

0.00 115 .82 0.00 于 0.00 10.00 
Dir#entries 

0.00 115.82 0.00 1 0.00 0.00 
Dir#open 

0.00 115.82 0.00 二 0.00 10.00 
Enumerable.to_a 

0.00 115.82 0.00 1 0.00 115790 .00 
#toplevel 


图 10-5 profiler 的 执行 结果 ， 图 10-2 所 示 程 序 改进 前 的 测定 


表 10-1 i 


也 
Nm 
7 


第 5 栏 和 第 6 栏 或 许 有 些 难 刷 。 第 5 栏 不 包含 被 调用 的 方法 所 人 花费 的 
时 和 | 而 第 6 栏 包 含 这 个 时 间 。 


从 图 中 的 结果 来 看 ，File .mtime( ) 被 调用 156 540 次 ， 耗 费 了 总 执 
行 时 间 的 41.1%。 这 个 方法 就 是 瓶颈 


那么 ， 使 用 sort_by 会 怎样 呢 ? 对 于 图 10-4 中 使 用 sort_by 的 程 
序 ，profiler 的 执行 结果 如 图 10-6 所 示 。 


cumulative self self total 
seconds seconds ms/call ms/call 
14.30 14. 14300.00 25400.00 
Enumerable. sort_by 
31.64 22.34 5 .10 .10 Time#<=> 
5.08 23.63 B .28 .40 File#mtime 
4.84 24.86 5 .00 .00 Array#each 
2.13 25.40 5 .12 并 之 
Kernel.respond_to? 
0.16 25.44 3 .O00 
Profiler_.start_profile 
©.04 25 ， .00 Dir#each 
0.00 25. .00 
Dir#entries 
0.00 25， .00 Dir#open 
0.00 25. 。 5 .00 #toplevel 
0.00 255 5 5 .00 
Enumerabljle.to a 


pa 


图 10-6 profiler 的 执行 结果 ， 图 10-4 所 示 程 序 改进 后 的 测定 结 且 


10.1.7 profiler 本 身 成 了 累 葡 


仔细 看 看 图 10-5 和 图 10-6 就 可 以 知道 ， 使 用 profiler 使 得 程序 执 
行 时 间 大 幅 延 长 。 不 使 用 profiler 执行 时 ， 改 进 前 是 4.624 秒 ， 改 
进 后 是 0.263 秒 。 而 使 用 profiler 执行 时 ， 改 进 前 是 115.82 秒 ， 改 
进 后 是 25.45 秒 。 前 者 执行 时 间 延 长 至 原来 的 25 倍 ， 后 者 执行 时 间 则 
是 原来 的 97 倍 。 


从 profiler 所 引起 的 执行 速度 降低 来 看 ， 不 禁 让 人 想起 量子 力学 的 
不 确定 性 原理 。 不 确定 性 原理 是 指 测 定 行为 本 身 对 被 测 对 象 产生 了 影 
响 ， 从 原理 上 可 以 说 不 可 外 正确 知道 对 象 的 状态 。 应 当 认 识 到 ， 从 
profiler 的 测定 结果 来 看 ， 只 能 知道 实际 状态 的 大 体 倾 癌 。 


10.1.8 ”算法 与 数据 结构 


在 进行 性 能 优化 时 ， 按 下 述 步 又 去 改善 。 先 找 出 瓶 须 ， 明 确 知 道 应 当 
改善 哪里 后 ， 再 考虑 算法 和 数据 结构 的 选择 。 去 除 多 余 的 赋值 ， 把 反 
复 计 算 的 值 放 入 变量 中 ， 这 些 都 是 小 技巧 ， 性 能 顶 多 改善 儿 成 。 但 
是， 大 能 选用 一 个 好 的 算法 ， 有 时 会 改善 数 十 倍 ， 甚 至 上 百倍 。 


选择 合适 的 算法 ， 这 是 性 能 改善 的 第 一 考虑 因素 。 要 记 住 这 条 铁 则 。 
10.1.9 ”理解 o 记 法 


如 何 从 效率 方面 判定 一 个 算法 的 好 坏 呢 ? 一 个 方法 就 是 O 记 法 。O 记 
法 表示 某 种 算法 对 于 变量 《比如 使 用 的 元 素 个 数 ) 如 何 变 化 。 


比如 基本 排序 算法 的 冒 泡 排 序 算法 ， 所 有 元 聚 要 全 部 比较 。 也 束 是 比 
较 次 数 与 元 素 个 数 (通常 以 n 来 表示 ) 的 平方 成 比例 。 所 以 ， 这 种 算 
人 
10-2 中。 


表 10-2 各 种 算法 的 计算 量 


cg 
字符 串 比较 


2 
) 
行列 乘法 运算 


里 说 O 记 法 相同 ， 但 两 种 算法 应 用 于 同一 数据 ， 结 末 不 一 定 就 相同 。 
有 了 时 会 出 现 明显 的 性 能 差异 。 

假设 某 一 算法 的 计算 量 对 元 素 个 数 来 说 是 n”， 男 一 算法 的 计算 量 古 n 
“+3_n_， 随 着 数据 量 的 增加 ， 两 种 算法 的 表现 不 同 。 但 是 ，O 记 法 中 
最 大 项 (这 里 是 n?) 以 外 的 项 被 忽视 ， 这 两 个 算法 都 写成 O(n?)。 


请 注意 O 记 法 只 能 表示 随 痢 元 素 个 数 的 增加 ， 该 算法 的 大 体 走向 。 


O 记 法 O(n?)， 表 示 数 据 量变 成 10 倍 的 时 候 ， 执 行 时 间 按 元 素 个 数 
的 2 次 方 比例 增长 这 一 趋势 。 并 不 意味 着 处 理 100 件 花 了 工 秒 ， 处 理 
1000 件 束 一 定 花 100 秒 。 


10.1.10 ”选择 算法 


现在 来 看 看 算法 的 选择 对 于 性 能 的 影响 。 图 10-7 中 的 程序 是 从 给 出 的 
两 个 数组 中 ， 求 出 两 方 都 含有 的 元 素 。 


def intersect1i(a, b) 
result = [] 
for x in a 
for y in b 
result.push(x) If x == y 


end 
end 
return result 
end 


图 10-7 求 出 给 定 两 个 数组 中 共同 含有 的 元 素 的 程序 ， 计 算 量 为 O nm) 


10-7 中 ， 使 用 二 重 循环 对 两 个 数组 的 元 素 全 部 进行 比较 。 该 算法 的 
变量 是 作为 参数 传 过 来 的 两 个 数组 的 长 度 。 假 设 长 度 为 m、n， 则 该 算 
法 的 O 记 法 为 O nm)。 随 着 各 目的 数组 变 大 ， 必 要 的 计算 量 与 两 个 
数组 的 长 度 的 积 成 比例 。 


想 要 改善 这 个 算法 的 计算 量 ， 只 能 通过 改变 数据 结构 。 图 10-8 使 用 哈 
希 表 ， 计 算 量 才 得 以 改善 。 


def intersect2(a, b) 
hash = {} 
result = [] 


# 准备 哈 希 表 
for x in a 
hash[x] = true 
end 
# 哈 希 表 中 有 的 话 ， 就 追加 
for y in b 
result.push(y) if hash.key?(y) 
end 
return result 


图 10-8 求 出 给 定 的 两 个 数组 中 共同 含有 的 元 素 的 程序 ， 使 用 哈 希 表 ， 计 算 量 限制 在 O 


(ntm) 


图 10-8 的 程序 中 ， 首 先 用 数组 元 素 构 造 了 一 个 哈 希 表 。 哈 希 表 这 种 数 
据 结 构 ， 其 元 素 的 存在 检查 只 花费 常数 时 间 ， 计 算 量 是 O (1)。 利 用 这 
一 点 ， 可 以 将 计算 量 削减 为 O (n+n。 为 了 哈 希 表 的 实现 和 检查 ， 需 
要 对 两 个 数组 的 各 个 元 素 进行 循环 ， 这 对 计算 量 有 影响 。 相 对 于 图 
10-7 中 的 程序 ， 在 数组 变 得 很 大 的 时 候 ， 图 10-8 中 的 程序 所 需 的 处 理 
时 间 要 短 得 多 。 


10.1.11 调查 算法 的 性 能 
实际 比较 一 下 两 种 算法 的 性 能 。 可 以 准备 两 个 独立 的 程序 ， 然 后 用 


time 命令 。 这 里 使 用 Ruby 提供 的 benchmark (基准 ) 。 图 10-9 
是 在 进行 算法 性 能 比较 时 用 的 benchmark 程序 。 


require 'benchmark' 


(1..10000).collect{rand(1000)} 
(1..10000).collect{rand(1000)} 


a 
b 


Benchmark.bm do |x| 
x.report { intersect1i(a,b)} 
x.report { intersect2(a,b)} 
end 


图 10-9 benchmark 程序 (基准 程序 ) 使 用 Ruby 标准 的 benchmark 库 


实际 上 ， 图 10-9 中 的 程序 要 加 上 图 10-7 和 图 10-8 中 程序 的 方法 定 
义 。 程 序 执行 结果 如 图 10-10 所 示 3 。 


3 是 在 以 1.6GHz 运行 的 PentiumM，786M 内 存 的 Thinkpad X31 上 的 测试 结果 。OS 是 Linux 
2.6° 


USer system total real 
38 ,430000 0,.100000 38 .530000 ( 45.371555 ) 
0,.010000 ©0 .000000 ©0 .010000 ( 0.011314) 


LE 


图 10-10 benchmark 的 执行 结果 。 图 10-7 与 图 10-8 中 程序 的 调查 结果 


O nm) 的 算法 需要 花费 38.5 秒 来 处 理 ， 与 此 相对 ，O (n 十 m) 的 算法 只 
需要 花费 0.01 秒 。 实 际 处 理 时 间 缩 短 至 1/3850。 三 千 倍 以 上 的 性 能 改 
善 ， 如 果 不 靠 改变 算法 ， 是 不 可 想象 的 。 


10.1.12 ”高速 执 行 的 翡 衣 


回顾 编程 历史 ， 高 速 执行 引起 了 各 种 各 样 的 悲 喜剧 。 高 速 执行 的 基准 
征程 序 的 执行 速度 ， 但 执行 速度 依赖 于 各 种 各 样 的 因素 ， 寿 随 随便 便 
束 进 行 性 能 优化 ， 束 可 能 会 落 入 陷阱 。 束 连 这 次 举 出 的 简单 的 例题 ， 
也 有 多 个 陷阱 。 


徒劳 无 益 的 努力 


比如 ， 在 高 速 执 行 上 花费 过 多 的 时 间 ， 不 知 不 觉 中 ， 很 容易 在 跟 瓶 颈 
无 天 的 地 方 伦 费 太 多 徒 柬 无 答 的 努力 。 有 时 候 ， 得 到 数 千 倍 性 能 改善 
的 这 种 成 吕 感 ， 对 于 程序 员 而 言 ， 起 到 了 一 种 麻药 似 的 作用 。 


改良 绊 住 了 手脚 


sort_by 所 依据 的 施 瓦 了 次 变换 ， 是 用 时 间 和 空间 的 交换 来 削减 计算 量 
的 方法 。sort_by 方法 与 sort 方法 相 比 ， 占 用 了 多 达 3 倍 以 上 的 内 
存 。 所 以 ， 模 块 内 的 处 理 本 来 不 是 很 重 ， 如 果 一 味 地 占用 内 存 反 而 可 


全 已 人 ZIR 全 
能 会 变 慢 。 


性 能 优化 ， 光 有 理论 还 不 管用 。 手 头 上 有 许多 实验 结果 ， 至 少 现在 从 
Ruby 上 的 结果 来 看 ， 排 序 算 法 要 想 超 过 sort_by 是 很 困难 的 。 我 想 
大 家 尽 可 以 放心 活用 sort_by ， 直 到 profiler 证 明 sort_by 是 


像 这 样 ， 如 有 果 不 实 际 做 的 话 束 不 知道 到 底 什 么 是 正确 的 ， 这 也 可 以 说 
征 高 速 执行 的 陷阱 之 一 。 


算法 选择 的 圈套 


刚才 ， 为 了 取得 两 个 数组 中 共同 的 元 素 ， 以 图 10-8 中 使 用 哈 希 表 的 程 
序 代替 了 图 10-7 中 使 用 二 重 循环 的 程序 ， 实 现 了 多 达 3850 倍 的 提速 。 
一 般 来 说 ， 到 此 也 束 满 足 了 ， 但 仔细 检查 一 下 就 会 发 现 ， 在 数组 类 

Array 中 ， 已 经 提供 有 一 个 求 共 同 元 素 的 内 扔 方法 &。Ruby 标准 库 的 
方法 ， 很 多 都 是 用 C 语言 实现 的 ， 使 用 &， 估 计 执 行 会 更 快 吧 。 实 际 
运行 一 下 benchmark ， 在 同样 条 件 下 ， 执 行 时 间 是 0.001529 秒 。 执 
行 速度 是 图 10-8 中 程序 的 7 倍 。 像 这 样 ， 即 便 觉 得 已 经 找到 了 最 好 的 算 
法 ， 也 可 能 还 存在 更 好 的 实现 方法 。 千 万 不 可 粗心 大 意 。 

一 般 地 ， 尽 可 能 活用 Ruby 原装 的 内 藤 方 法 ， 这 是 Ruby 中 实现 高 速 执 
行 的 窍门 。Ruby 的 内 内 方 法 除了 算法 精炼 之 外 ， 几 乎 都 是 以 C 实现 
的 ， 因 此 ， 高 速 执 行 的 可 能 性 很 大 。 

但 是 ， 还 有 后 话 。 在 benchmark 程序 中 ， 已 经 知道 ， 图 10-8 中 的 程 
序 比 图 10-7 的 快 ，& 方 法 比 图 10-8 中 的 快 。 但 这 3 个 程序 的 执行 ， 严 格 
来 说 并 不 一 样 。 在 数组 元 素 重复 的 时 候 ， 执 行 也 是 不 一 样 的 。 


在 进行 性 能 优化 时 ， 不 改变 原来 程序 的 执行 是 一 个 大 原则 ， 像 这 样 在 
特殊 情况 下 执行 上 的 差异 ， 需 要 考虑 其 对 程序 的 目的 有 多 大 影响 。 


类 似 这 样 的 情况 ， 数 组 元 素 的 重复 有 没有 可 能 ， 或 者 是 元 素 重 复 时 执 
行 上 的 差异 能 否 接受 ， 都 必须 要 充分 考虑 。 不 过 ， 既 然 有 几 万 倍 ( 速 
度 上 ) 的 差异 ， 和 稍微 有 点 (执行 上 ) 的 差异 ， 还 是 可 以 接受 的 。 
10.1.13 ”性 能 优化 的 格言 
最 后 ， 介 绍 几 条 关于 性 能 优化 的 格言 。 第 1 条 也 是 最 有 名 的 。 
过 早 的 优化 是 万 恶 之 源 。 
还 有 一 句 也 说 的 是 这 个 意思 。 
优化 有 两 条 准则 。 

。 别 做 优化 。 

。 〈 仅 适用 于 专家 ) 先 不 要 做 优化 。 


这 算是 对 于 那些 热 豆 于 做 高 速 优化 的 程序 员 的 警戒 格言 吧 。 
10.2 ”让 程序 高 速 执行 (后 篇 ) 


本 节 作 为 程序 高 速 优化 的 实践 篇 ， 对 具有 一 定 规模 的 具体 程序 ， 一 边 
进行 阶段 性 的 高 速 优化 ， 一 边 学 习 实 践 技术 。 


例题 是 受 德 勃 罗 集 合 ! 的 计算 程序 (参见 图 10-11) 。 曼 德 莹 罗 集合 是 
非 第 美的 集合 ， 本 来 应 该 用 图 像 表示 *。 但 使 用 GUI 以 后 ， 需 要 大 量 
依赖 于 特定 GUI 库 (Graphics Routine) 的 代码 。 因 为 这 次 的 主题 是 高 
速 执 行 ， 没 有 直接 关系 的 GUI 代码 尽 可 能 要 省 去 ， 所 以 用 字符 (英文 
字母 ) 来 表现 图 形 。 


1 受 德 艺 罗 集合 是 指 复 乎 面 上 满足 以 下 条 件 的 复 素 数 的 集合 : 经 过 某 种 反复 欠 代 运算 以 后 ， 
其 值 不 会 发 散 到 无 限 大 。 


2 用 GUI 编写 的 曼 德 勃 罗 集合 描述 程序 ， 
ISBN 4756132545) 的 第 9 章 中 有 讲述 。 
了 ， 因 此 不 能 再 运行 。 


在 《面向 对 象 编程 语言 Ruby》 (Ascii 出 版 社 ， 
日 是 ， 现 在 广泛 使 用 的 Ruby/Gtk2 中 ， 由 于 API 变 


沁 


改 为 以 字符 输出 ， 结 果 减 少 了 整体 计算 量 ， 带 来 缩短 测定 时 间 的 附加 
效果 。 进行 高 速 优化 需要 频繁 测定 缩短 每 次 的 执行 时 间 是 一 个 优 


yy 


依存 于 特定 API 的 GUI 程序 ， 会 随 着 API 的 变更 而 变 得 不 再 好 用 ， 但 
以 字符 为 基础 的 程序 能 够 长 期 放心 使 用 。 


10.2.1 确认 程序 概要 


10-11 是 计算 曼 德 勃 罗 集 合 的 算法 代码 ， 比 GUI 版 要 简单 3 。GUI 
版 的 代码 有 102 行 。 


图 10-11 中 所 列举 的 曼 德 艺 罗 集合 计算 程序 是 基于 Steven N. Severinghaus 的 程序 
(http://severinghaus.org/projects/mandelbrot ) 。 


1 require 'complex' 
2 


CD 


3 def mandelbrot(cr, ci) 

4 1imit=95 

5 iterations=0 

6 c=Complex.new(cr,ci) 

7 z=Complex.new(0,0) 

8 while iterations<limit and z.abs<10 


9 Z=Z*Z+C 

10 iterations+=1 
11 end 

12 return iterations 
13 end 

14 


15 def mandel calc(min_r, min_i, max_r, max_i, res) 
16 cur_i = min i 
17 while cur_i > max_i 


18 print "|" 

19 cur r = min_r 

20 while cur_r < max_r 
21 ch = 127 - mandelbrot(cur_r, cur_i) 
22 printf "%c",ch 

23 cuUr_r += res 

24 end 

25 print "|\n" 

26 cuUr_i -= res 

27 end 

28 end 

29 


30 mandel calc(-2, 1, 1, -1, 0.04) 


图 10-11 ” 曼 德 过 罗 


合 的 计算 程序 ， 文 件 名 为 mandell.rb。 示 进行 任何 优化 


梁 


程序 结构 很 简单 。 第 15 行 到 第 28 行 的 mandel_calc 方法 计算 指定 
范围 的 曼 德 劲 罗 集 合 。 这 次 为 了 看 起 来 美观 ， 在 第 30 行 指定 了 范围 

(坐标 ) 〈(-2，1) - (1，-1) ， 第 5 个 参数 是 分 辨 率 。 一 格 (一 个 字 
符 ) 相当 于 0.04。 当 这 个 值 变 大 时 ， 结 果 束 会 变 小 。 


内 部 调用 mandel_calc 方法 的 ， 是 第 3 行 到 第 13 行 的 
mandelbrot 方法 。 只 计算 某 一 点 的 状态 。 


先 简单 执行 一 下 看 看 。 


% ruby mandeli1.rb 


用 字符 表现 的 曼 德 勃 罗 集合 显示 出 来 了 (参见 图 10-12) 。 可 以 看 出 
用 字符 表现 得 有 点 有 胱 的 
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图 10-12 ”图 10-11 中 程序 的 执行 结果 ， 用 字符 表现 的 曼 德 勃 罗 集 合 
下 面 测定 一 下 执行 时 间 。 执 行 时 间 的 测定 用 Linux 的 time 命令 。 


% time 
real 


ruby mandeli1.rb > /dev/null 
om2 .601S 
om2 .432S 
OmO .004s 


user 
sys 


这 是 在 我 的 环境 (Ruby 1.8.6，Linux 2.6.24，Pentium M 1.6GHz) 下 的 
执行 结果 。 为 了 避免 其 他 进程 引起 的 测定 误差 ， 我 反复 测定 了 10 次 ， 

采用 了 最 好 的 成 绩 。 这 次 想 测 定 的 只 是 计算 时 间 ， 输 出 所 用 的 时 间 反 

倒 成 了 票 痪 ， 所 以 将 输出 重 定向 到 /dev/null 中 扔 掉 。 


10.2.2 ”发 现 瓶 颈 


性 能 优化 ， 首 先 找 出 瓶颈 (问题 所 在 ) 是 一 条 铁 则 。 如 前 所 述 ， 对 于 
发 现 瓶 绒 ，profiler 是 一 个 有 用 的 工具 。 使 用 profiler 测定 一 下 
吧 。 


% time ruby -r profile mandeli1.rb 


real 4m4 .8725S 
User 3m36 .026S 
sys Om4.428s 


profiler 的 结果 如 图 10-13 所 示 。 从 profiler 的 结果 来 看 ， 耗 费 
时 间 (self seconds) 最 多 的 3 个 方法 如 下 所 示 (括号 内 是 调用 次 


0 


% cumulative self self total 
time seconds seconds calls ms/call ms/call name 
20.85 45.05 45.05 229539 0.20 0.57 
Object#Complex 
19 .22 86.56 41 .51 237039 0.18 0.23 
Complex#initialize 
11.20 110.75 24.19 114769 0 .21 0.89 Complex#* 
7.68 127.34 16.59 3750 4.42 57.29 
Object#mandelbrot 
7.22 142.93 15.59 1181444 0 .01 0 .01 
Kernel.kind_of? 
6.88 157.79 14.86 114769 0.13 0.73 Complex#+ 
4.39 167 .27 9 .48 459078 0.02 0.02 Numeric#imag 
4.31 176.58 9.31 459078 0.02 0.02 Numeric#real 
3.28 183.67 7.09 237039 0.03 0.26 Class#new 
2.40 188.86 5.19 443822 0 .01 0.01 Float#* 
2.12 193.44 4.58 117551 0.04 0.05 Complex#abs 
2.04 197.85 4.41 355614 0 .01 0.01 Fixnum#+ 
2.00 202.16 4.31 336751 0 .01 0.01 Float#- 
1.97 206.41 4.25 336751 0 .01 0.01 Float#+ 
1.47 209.58 3.17 225709 0 .01 0.01 Float#== 
0.85 211.41 1.83 117551 0.02 0.02 Math.hypot 
0.74 213.01 1.60 121301 0 .01 0.01 Float#< 
0.67 214.46 1.45 118569 0 .01 0.01 Fixnum#< 
0.25 215.01 0.55 1 550 .00 216020 .00 
Object#mandel_calc 
0.19 215 .43 0 ,42 3750 0 .11 0.14 Kernel.printf 
0.12 215.69 0.26 15254 0.02 0.02 Fixnum#* 
0.07 215.85 0.16 11357 0 .01 0.01 Fixnum#- 
0.04 215.94 0.09 3850 0.02 0.02 IO#write 


0.04 216 .02 0.08 3830 0.02 0.02 Fixnum#== 
0.00 216 .02 0.00 37 0.00 0.00 
Kernel.singleton method_added 

0.00 216 .02 0.00 34 0.00 0.00 
Module#module_function 

0.00 216 .02 0.00 1 0.00 0.00 
Module#method_undefined 

0.00 216 .02 0.00 1 0.00 0.00 
Class#inherited 

0.00 216 .02 0.00 2 0.00 0.00 Module#attr 
0.00 216 .02 0.00 1 0.00 0.00 


Kernel.require 


0.00 216 .02 0.00 1 0.00 0.00 Fixnum#> 
0.00 216 .02 0.00 71 0.00 0.00 
Module#method_added 

0.00 216 .02 0.00 50 0.00 0.00 Float#> 

0.00 216 .02 0.00 100 0.00 0.00 Kernel.print 
0.00 216 .02 0.00 1 0.00 216020.00 #toplevel 


图 10-13 图 10-11 中 代码 的 profiler 结果 
(1 位 ) Object#Complex (229 539 次 ) 
(2 位 ) Complex#initialize (237 039 次 ) 
(3 位 ) Complex#* (114 769 次 ) 
Complex( ) 是 复 素数 生成 方法 ，Complex#initialize 是 复 素数 
的 初始 化 方法 。 这 些 都 是 被 mandelbrot 方法 调用 的 (而且 


mandelbrot 方法 本 身 也 是 第 4 位 ) ，mandelbrot 方法 就 是 瓶颈 这 
一 点 应 该 不 会 错 。 因 此 ， 高 速 优化 就 以 mandelbrot 方法 为 对 象 吧 。 


10.2.3 ”使 用 更 好 的 profiler 


话题 稍微 贫 开 一 下 ， 对 profiler 本 身 的 执行 时 间 有 些 在 意 。 不 是 慢 
一 点 半点 。Ruby 的 profiler 是 以 Ruby 本 刁 来 写 鸭 ， 有 人 说 不 怎么 
快 。 事 实 上 大 家 都 觉得 好 像 太 慢 了 。 


原始 的 受 德 勃 罗 集 合计 算 程序 ， 在 不 使 用 profiler 执行 时 ， 需 
2.6 秒 ; 在 使 用 profiler 执行 时 ， 需 要 4 分 零 5 秒 。 执 行 时 间 变 成 
了 不 使 用 profiler 执行 时 的 94 倍 。 


实际 上 ， 虽 然 不 是 标准 提供 ， 但 是 有 更 好 的 profiler ， 束 是 称 为 
ruby-prof 的 程序 4。 通 过 使 用 扩展 库 ， 可 以 实现 高 速 profile 。 
4ruby-prof 可 以 从 以 下 的 URL 得 到 (http://rubyforge.org/projects/ruby-prof ) 。 开 发 者 是 前 
田 修 武 。 


那么 ， 来 试 斌 ruby-prof 吧 。 为 了 用 ruby-prof 进行 profile ， 
用 ruby-prof 命令 取代 ruby 命令 来 执行 。time 命令 就 不 需要 了 。 


% ruby-prof mandel1.rb 


Om12.047sS 
Om6 .336S 
Om4.004s 


ruby-prof 有 很 多 优点 ， 其 中 最 重要 的 是 它 能 够 高 速 执行 ， 仅 仅 花 
12 秒 。 跟 什么 都 不 做 (2.6 秒 ， 不 用 任何 profiler ) 比 起 来 虽然 有 
些 慢 ， 但 跟 标 准 profiler 的 4 分 多 钟 比 起 来 ， 还 是 要 快 得 多 。 


10.2.4 ”高 速 优化 之 一 : 削减 对 象 
知道 了 问题 所 在 ， 下 一 步 是 程序 的 高 速 化 。 从 刚才 profiler 的 结 


来 看 ，mandelbrot 方法 占用 了 多 半 的 执行 时 间 ， 而 且 复 妹 数 的 计算 
成 为 瓶 须 。 这 里 ， 束 考虑 除去 瓶颈 一 一 复 素数 的 计算 。 复 素数 以 实数 


和 虚数 和 的 形式 来 表示 。 所 以 ， 需 要 特别 的 运算 。 


mandelbrot 方法 的 核心 是 复 素 数 的 计算 z = z*z + c。 复 素数 的 
加 法 、 乘 法 和 绝对 值 abs 定义 于 图 10-14。 使 用 这 个 算式 ， 如 果 能 独 
立 计算 实 部 和 虚 部 的 话 ， 那 么 不 用 Complex 类 也 行 。 


class Complex 
def +(other) 
return Complex.new(@retother.re,@im+other.im) 
end 
def *(other) 
return Complex.new(@re*other.re- 
@im*other .im,@re*other.im+@im*other.re) 
end 


def abs 
return Math.sqrt(@re**2+@im**2) 
end 


end 


图 10-14 ” 复 素数 类 的 加 法 、 乘 法 和 绝对 值 的 定义 内 容 


避 开 了 Complex 类 的 生成 ， 最 花 时 间 的 3 个 方法 就 可 以 削减 了 ， 执 
行 速度 的 改善 应 该 是 有 希望 的 。 


10-15 所 示 的 是 根据 这 个 方针 改善 后 的 mandelbrot 方法 。 


def mandelbrot(cr, ci) 
1imit=95 
iterations=0 
zr = zi = 0.0 
while iterations<limit and Math.sqrt(zr**2+zi**2)<10 
zr, Zi = Zr*zr-zZi*zZi+cr,Zr*zZi+zi*zr+ci 
iterations+=1 
end 
return iterations 
end 


图 10-15 mandelbrot 方法 (改善 版 1) 


最 初 的 mandell.rb 的 mandelbrot 方法 被 置换 以 后 ， 请 以 文件 名 
mandel2.rb 来 保存 。 因 为 mandel2.tb 不 含 复 素数 计算 , “require 
'complex' ”这 一 行 可 以 删除 。 


执行 一 下 mandel2.mb 吧 。 


% time ruby mandel2.rb > /dev/null 
real Om0 .517s 
user Om0 .512s 


sys OmO ,000s 


J 0.5 秒 。 与 之 前 的 版 本 相 比 ， 快 了 5 倍 之 多 ， 真 了 不 
已 | 


那么 ， 再 回 过 头 来 考察 一 下 mandel2.rb 执行 时 间 变 短 的 原因 吧 。 首 
先 ， 最 大 的 原因 是 不 再 使 用 复 素数 。 这 样 也 束 避 免 了 复 素 数 的 生成 所 
耗费 的 时 间 。 实 际 上 占用 执行 时 间 40% 的 部 分 被 削减 掉 了 。 


由 此 可 以 得 出 以 下 的 Ruby 高 速 优化 的 规则 1。 

规则 1: 减少 对 象 

使 用 高 级 面向 对 象 语言 却 不 得 使 用 对 象 ， 这 条 件 太 苛刻 了 。 但 对 和 象 的 
生成 要 花费 一 定 的 成 本 (时 间 ) ， 对 于 那些 频繁 地 生成 以 至 于 影响 到 


执行 速度 的 对 象 ， 有 时 需要 采取 些 对 策 。mandelbrot 程序 中 ， 需 要 
0 以 至 于 影响 到 执行 速度 ， 恰 好 十 需要 采取 措施 的 地 


减少 对 象 ， 除 了 会 降低 生成 成 本 以 外 ， 还 有 别 的 好 处。 


Ruby 中 不 再 使 用 的 对 象 ， 由 被 称 作 垃圾 收集 (garbage collection) 的 
处 理 自动 进行 回收 。 垃 圾 收集 处 理 需 要 检查 对 象 的 引用 关系 ， 任 何 地 
方 都 不 再 引用 的 对 象 会 被 判定 为 已 经 不 再 使 用 了 。 所 以 ， 当 对 象 的 数 
量 很 多 的 时 候 ， 这 种 “是 不 是 已 经 不 再 使 用 了 ”的 判断 成 本 就 要 增 大 。 

profiler 不 检查 垃圾 收集 处 理 ， 这 样 就 容易 看 漏 ， 当 怀疑 对 象 是 不 
是 太 多 了 的 时 候 ， 有 必要 检查 一 下 。 


但 仅仅 是 不 再 生成 复 素数 ， 只 能 达成 40% 的 时 间 削 减 ， 并 不 能 说 明 
mandel2.mb 为 何 快 了 5 倍 。 


10-16 显示 的 是 速度 改善 后 的 mandel2.rb 的 profile 结果 。 看 了 这 个 


图 ， 首 先 注 意 到 的 是 ， 行 数 少 了 很 多 。 原 始 的 mandell.rb 有 35 行 ， 与 
此 相对 ，mandel2.rb 只 有 18 行 。 这 是 由 于 避 开 了 complex 库 ， 调 用 方 
法 (的 种 类 ) 也 变 少 了 的 原因 。 


% cumulative self self total 

time seconds seconds calls ms/call ms/call name 

62.42 31.83 31.83 3750 8.49 13.42 
Object#mandelbrot 

10.26 37.06 5.23 459076 0.01 0.01 Float#* 
9.06 41.68 4.62 465558 0.01 0.01 Float#+ 
4.06 43.75 2.07 235102 0.01 0.01 Float#** 
3.00 45 .28 1.53 121301 0.01 0.01 Float#< 
2.86 46.74 1.46 114818 0.01 0.01 Float#- 


2.73 48.13 1.39 117551 0 ,01 0.01 Math.sdrt 
2.27 49 .29 1.16 118569 0.01 0.01 Fixnum#< 
2.14 50.38 1.09 114819 0.01 0.01 Fixnum#+ 
0.78 50.78 0.40 1 400.00 50990.00 
Object#mandel_calc 

©0.24 50.90 0.12 3750 0.03 0.05 
Kernel.printf 

0.12 50.96 0.06 3850 0.02 0.02 IO#write 
0.06 50.99 0.03 3751 0 ,01 0.01 Fixnum#- 
0.00 50.99 ©0.00 2 0.00 0.00 
Module#method_added 

0.00 50.99 0.00 100 0.00 0.00 
Kernel.print 

0.00 50.99 0.00 50 0.00 0.00 Float#> 
0.00 50.99 0.00 1 0.00 0.00 Fixnum#> 
0.00 50.99 0.00 1 0.00 50990.00 #toplevel 


本 


图 10-16 ”图 10-15 中 改善 后 的 代码 的 profiler 结果 ， 与 图 10-13 比 起 来 ， 方 法 数 减 少 


数 一 数 实际 的 方法 调用 次 数 吧 。profile 结果 第 4 列 的 合计 ( 减 去 top 
level 的 1) 是 方法 调用 的 总 次 数 。 i rb 中 是 5 248 464 次 ， 
mandel2.rb 中 是 1762 049 次 ， 实 际 上 后 者 是 前 者 的 VW3。 由 此 可 以 得 
出 Ruby 高 速 优化 的 规则 2。 


规则 2: 减少 方法 调用 

方法 调用 中 ， 存 在 多 人 态 性 这 一 面向 对 象 的 本 质 特征 ， 先 要 评价 参数 ， 

J 然后 选 出 一 个 合 适 的 方法 ， 再 将 控制 移 区 给 该 方法 ， 
征 一 个 缓慢 的 处 理 过 程 。 

为 了 避 开 方法 调用 ， 尽 可 能 不 用 Ruby 中 实现 的 方法 。Ruby 中 实现 的 


方法 ， 儿 乎 所 有 的 情况 都 是 通过 调用 其 他 方法 来 实现 的 。 也 束 是 说 ， 
只 要 使 用 了 一 次 Ruby 中 实现 的 方法 ， 束 会 有 多 余 的 方法 调用 发 生 。 


10.2.5 ”高 速 优化 之 二 : 利用 立即 值 


Ruby 中 有 几 类 对 象 并 不 实际 分 配 内 存 ， 而 是 用 引用 (reference) 本 身 
来 表示 ， 这 种 值 称 为 立即 值 (immediate value) 。 


现在 的 Ruby 中 ， 小 的 整数 (+2^30 以 内 ) 、 真 假 值 、nil 和 符号 名 等 
都 是 立即 值 。 


立即 值 既 然 不 生成 对 象 ， 就 不 用 担心 对 象 的 生成 成 本 ， 而 且 也 不 用 垃 
圾 收集 处 理 ， 所 以 它 具 有 特别 理想 的 特性 。 


曼 德 玛 罗 集合 的 计算 是 浮 扣 小数 的 计算 ， 为 了 将 其 整数 化 ， 需 要 将 
其 “ 抬 高 ”， 变 成 固定 小 数 点 数 。 固 定 小 数 点 以 后 的 mandelbrot 方法 
如 图 10-17 所 示 。 


def mandelbrot(c_r, c_i) 
limit=95 
iterations=0 
cr (c_r * 100).to i 
ci (c_i * 100).to i 
zr zi = 0 


while iterations<limit and Math.sqrt(zr*zr+zi*zi)<1000 
zr, Zi = (Zr*zr-zZi*zi)/100+cr, (Zr*zZi+Zzi*zr)/100+ci 
iterations+=1 
end 
return iterations 
end 


图 10-17 mandelbrot 方法 (改善 版 2) 


这 里 为 确保 小 数 点 以 下 两 位 ， 将 值 放 大 100 倍 。 在 乘法 运算 后 ， 因 为 
结果 被 重复 放大 了 ， 所 以 除 以 100。 


mande12.rb 中 mandelbrot 方法 被 替换 后 ， 请 保存 为 
mandel3.rb 。 


% time ruby mandel3.rb > /dev/null 
real OmO .467s 
user OmO .464S 


sys gmg .004s 


与 mande12.rb 相 比 ， 性 能 仪 改善 了 一 点 点 。 所 以 ， 说 老实 话 ， 改 善 
没有 期 望 的 那么 大 。 在 mandelbrot 程序 中 ， 生 成 的 对 象 数 比 想象 得 
少 ， 二 圾 收集 的 负担 也 没 那么 大 。 固 定 小 数 点 所 需 的 “ 抬 高 ”运算 增加 
了 方法 调用 ， 这 抵消 了 利用 立即 值 带 来 的 好 处 。 如 果 在 分 辩 率 更 高 一 
点 的 计算 中 ， 垃 圾 收集 的 负担 会 更 高 一 些 ， 或 许 会 得 到 更 大 的 差异 。 


固定 小 数 点 的 计算 也 有 副作用 。 仔 细 观 察 mande13. rb 的 输出 ， 可 以 
看 出 图 形 的 细微 部 分 略 有 差异 。 这 是 因为 计算 到 小 数 点 以 下 两 位 ， 计 
算 结 有 末 有 侦 短 。 


10.2.6 ”高 速 优化 之 三 : 利用 C 语 言 

因为 Ruby 是 解释 性 语言 ， 单 纯 计 算 的 循环 不 是 很 快 。 如 采 将 处 理 交 
给 编译 右 ， 台 可 以 变 得 很 快 。 根 据 profile 的 测定 结果 ， 如 有 果 找 到 了 验 
颈 所 在 ， 就 可 以 将 该 部 分 用 C 语言 来 实现 ， 这 也 是 一 个 有 效 的 战略 。 
与 其 他 语言 比较 起 来 ， 用 C 语言 来 编写 Ruby 扩展 库 相 当 人 简单 。 

这 次 没有 详细 说 明 扩 展 库 是 有 原因 的 ， 因 为 有 更 好 的 方法 。 
RubyInline 就 是 更 好 的 方法 。 人 简单 地 说 ，RubyImline 束 古 Ruby 程序 中 
能 够 直接 移入 的 C 语言 代码 。 初 次 执行 时 ，C 语言 代码 被 目 动 编译 ， 


ee: 展 库 。 或 许 ， 看 看 实际 的 代 
更 容易 懂 。 


安装 RubyInline 后 ， 请 在 程序 先头 加 上 require "inline" 。 
于 是 ， 将 mandelbrot 方法 换 成 图 10-18 中 的 代码 。 


class Object 
inline do |builder | 
builder.include "<math.h>" 
builder.c " 
int mandelbrot(double cr, double ci)t{ 
long limit = 95; 
long iter = 0; 
double zr = 0, zi = 0,2zzr, Zz2i; 
while (iter < limit && sqrt(zr*zr+zi*zi) < 10){ 
ZZr = Zr*zr-zZi*zi+cr; 
ZZzZi = Zr*zZi+zi*zr+ci; 
zr = zzr; Zi = 2z2zi; 
itert+; 


return iter; 


As 


图 10-18 mandelbrot 方法 (RubyInline 用 


10-18 中 ， 用 builder .include 声明 必要 的 包含 文件 ， 用 
builder.c 定义 Object 的 方法 。 方 法 本 映 用 C 语言 编写 ， 处 理 内 容 与 
mandel2.rb 相同 。 


置换 后 的 文件 保存 为 mandel4.rb， 然 后 执行 。 第 1 次 执行 需要 在 内 部 
进行 编译 ， 会 稍微 多 花 些 时 间 ， 第 2 次 以 后 ， 编 译 结果 已 经 保存 下 
来 ， 这 样 束 可 以 高 速 执行 。 与 以 前 一 样 ， 执 行 10 次 ， 其 中 人 花费 时 间 最 
短 的 结果 如 下 。 


% time ruby mandel4.rb > 
/dev/null 
real Om0 .083s 


om0 .076S 
om0 .008S 


0.083 秒 ! 与 原始 程序 相 比 快 了 31 倍 ， 与 使 用 同一 算法 进行 高 速 化 的 
mandel2.rb 相 比 也 快 了 6 倍 以 上 。 


与 RubyInline 制作 扩展 库 的 方案 比 起 来 ， 这 要 简单 易 行 得 多 ， 是 一 种 
更 优秀 的 提速 方案 。 但 是 ， 如 果 没 有 编译 环境 ， 当 然 区 不 会 运行 ， 所 
以 需要 稍稍 选择 一 下 执行 环境 。 而 且 ， 如 果 是 Linux， 那 么 很 少 会 出 
问题 。 如 果 是 Windows， 则 只 能 在 Cygwin 环境 下 运行 。 


10.2.7 高 速 优化 之 四 : 采用 合适 的 数据 结构 


这 是 不 是 到 了 极限 了 呢 ? 已 经 用 C 语言 实现 了 ， 或 许 更 进一步 的 高 速 
化 束 很 难 了 。 


但 仔细 看 看 这 个 程序 ， 是 不 是 真 的 有 必要 对 mandelbrot 方法 进行 如 
此 频繁 (3650 次 ) 的 调用 呢 ? 如 果 能 够 削减 调用 次 数 ， 或 许 就 可 以 更 
高 速 地 处 理 。 


为 此 ， 好 像 需要 变更 数据 结构 。 图 10-19 中 ， 用 了 表示 均 质 数值 的 数 
组 NArray 类 。 


require ‘'narray' 


def mandel calc(min_r, min_i, max_r, max_i, 
Integer((max i - min i) / res).abs 
Integer((max_r - min_r) / res).abs 


res) 


(NArray.scomplex(w,1).indgen!/25+min_r) + 
(NArray.scomplex(1,h).indgen!/25+min_1)*1.im 
NArray.scomplex(w,1)+NArray.scomplex(w,1)*1.im 
NArray.sint(w,nh) 

idx = NArray.int(w,h).indgen! 


1imit=95 
i=0 


while i<limit 
Z = Z**2+C 
idx_t,idx_f = (z.abs>10).where2 


a[idx[idx_t]] = i 
break if idx_f.size==0 
idx = idx[idx_f] 
z = z[idx_f] 
c = c[idx_f] 
i+=1 

end 

h.times do |y| 
print | 
w.times do |x| 

printf "%c",126 - a[x,y] 

end 
print "|\n" 

end 

end 


mandel] calc(-2 ,， -1, 1, 1, 0.04) 


图 10-19 ”使 用 NArray 的 曼 德 勃 罗 集 合 的 计算 


将 这 个 程序 保存 为 mand- el5.rb， 并 执行 一 下 。 


% time ruby mandel5.rb > /dev/null 
real gmg0 .056s 
user Om0 .048s 


sys Om0 .008s 


比 使 用 RubyInline 的 程序 执行 时 间 更 短 ， 完 全 是 一 有 上 腿 的 工夫 。 改 变 
数据 结构 和 选择 计算 方法 ， 能 取得 很 大 的 效果 。 


但 是 ，mandel5.tb 的 执行 结果 ， 细 微 部 分 与 曼 德 劲 罗 集合 有 很 大 的 差 
异 。 本 来 想 与 其 他 的 程序 得 出 同样 的 结果 ， 但 NArray 的 使 用 方法 弄 
得 还 不 是 很 懂 ， 时 间 就 过 去 了 。 

10.2.8 ”全 部 以 C 语 言 计算 


作为 参考 ， 试 一 试 全 部 以 C 语言 实现 会 高 速 到 什么 程度 吧 。 算 法 已 经 
知道 了 ， 只 是 机 械 地 换 为 C 语言 。 结 果 如 下 所 示 。 


% time a.out > /dev/null 
real OmO .007S 
user Om0 .004s 


sys OmO .004s 


确实 很 快 。 像 这 种 单纯 的 计算 ， 怎么 也 敌 不 过 C 语言 。 但 这 个 C 程序 
之 所 以 能 够 很 简单 地 开发 出 来 (5 分 钟 左 右 的 工作 ) ， 是 因为 之 前 已 
经 存在 能 够 通畅 运行 的 Ruby 程序 。 在 开发 能 够 高 速 运行 的 程序 的 时 
候 ， 首 先 用 Ruby 写 一 段 能 够 运行 的 代码 ， 然 后 在 正式 环境 中 用 C、 

C++ 或 Java 等 重 写 ， 这 也 是 一 个 可 行 的 途径 吧 。 


10.2.9 ”还 存在 其 他 技巧 


这 次 没有 答 试 的 ， 还 有 “以 空间 换 时 间 ” 的 技巧 。 也 就 古 将 计算 的 中 途 
结果 你 存 起 来 ， 避 人 免 多 次 重复 同样 的 处 理 ， 结 果 让 处 理 能 够 在 短 时 间 
内 完成 。 在 曼 德 勃 罗 集 合 的 计算 中 虽然 不 适用 ， 但 在 反复 进行 同样 计 
算 的 处 理 中 ， 却 能 够 发 挥 极 大 的 作用 。 


米 * 米 


以 上 学 习 了 性 能 优化 的 具体 技巧 。 将 这 些 技巧 再 度 总 结 一 下 吧 。 
。 根据 测定 ， 发 现 瓶颈 。 
。 减 少 对 和 象 。 


。 减 少 方法 调用 。 
。 避 开 用 Ruby 实现 的 方法 。 
。 使 用 立即 值 。 

。 瓶 颈 部 分 用 C 语言 记述 。 
。 以 空间 换 时 间 。 


如 有 果 你 正在 因为 目 己 的 程序 太 慢 而 否 恼 ， 这 些 技 术 可 能 会 起 些 作 用 。 
但 也 不 要 去 记性 能 优化 的 格言 一 一 过 早 的 优化 是 万 有 恶 之 源 。 


10.3 ”并 行 编程 
在 Linux、Windows 等 现代 操作 系统 中 ， 多 个 程序 能 够 同时 运行 。 比 
如 ， 可 以 一 边 浏览 网 页 ， 一 边 在 后 台 刻 录 DVD-R 。 


计算 机 虽然 只 有 一 个 CPU， 但 操作 系统 能 够 将 程序 的 执行 单位 细 化 ， 
然后 分 开 执 行 ， 从 而 实现 伪 并 行 执行 1。 最 近 ， 有 称 为 多 核 的 ， 即 一 
台 机 器 上 有 多 个 CPU (CPU 核心 ) 同时 运行 。 

1 这 种 伪 并 行 执行 称 为 并 发 (concurrent) 。 使 用 多 个 CPU 真 的 同时 执行 称 为 并 行 
(parallel) 。 


10.3.1 使 用 线程 的 理由 


多 个 程序 同时 运行 的 时 候 ， 操 作 系 统 以 进程 ? 为 单位 同时 运行 。 寿 各 
个 进程 完全 独立 ， 也 束 无 二 话 可 说 。 但 是 ， 当 多 个 进程 协调 起 来 进行 
处 理 的 时 候 ， 区 ® 有 点 搁 烦 了 。 因 为 进程 间 必须 共 至 信息 。 


2 配置 了 专用 内 存 空间 的 程序 执行 代码 称 为 进程 ， 进 程 中 也 包含 CPU 状态 。 


假设 某 一 进程 〈 父 进程 ) 局 动 了 别 的 进程 〈 子 进程 ) 。 进 程 之 间 具 有 
独立 的 内 存 空间 ， 子 进程 中 的 变量 值 更 改 了 ， 也 不 会 影响 到 父 进 程 


3 子 进程 管理 的 各 种 变量 值 ， 是 从 父 进程 复制 而 来 的 。 子 进程 的 变量 值 改 变 了 ， 并 不 能 反映 
到 父 进程 中 去 。 


这 样 ， 进 程 之 间 束 有 必要 进行 通信 。 只 能 用 管道 或 套 接 字 ? 以 字 节 流 
5 的 形式 传送 信息 。UNIX 和 Linux 中 还 有 共享 内 存 ” 这 一 机 制 ， 但 使 
用 起 来 并 没 那么 容易 。 
4pipe (|) ， 是 把 某 一 程序 (进程 ) 的 标准 输出 传 给 另 一 进程 ， 作 为 其 标准 输入 的 一 种 参数 传 
递 方法 。 用 法 就 像 cat file | more 这 样 。 


he 


时 网 络 通信 的 一 种 机 制 。 


5 socket， 是 像 操 作文 件 一 样 ， 处 


6 所 谓 字 节 流 ， 是 单 向 或 者 双向 数据 通信 时 的 一 个 概念 。 发 信 端 和 收 信 端 数据 的 排列 是 一 至 
的 。 


7 共享 内 存 是 指 多 个 进程 之 间 能 够 共享 的 内 存 。 虽 然 高 速 ， 但 缺点 是 需要 有 防止 冲突 的 机 
制 ， 不 易 取 得 更 新 时 机 。 


内 存 空 间 之 所 以 独立 ， 是 因为 要 保护 进程 ， 避 人 免 进 程 之 间 互 相干 扰 。 
| 
烦 了 。 


于 是 就 使 用 线程 8 。 使 用 线程 可 以 在 一 个 进程 中 同时 进行 多 个 处 理 。 
thread 〈 线 程 ) 原意 是 缝 衣 线 的 意思 。 执 行 流程 像 颖 在 衣服 上 的 线 一 
样 ， 一 会 儿 出 现 ， 一 会 儿 消 失 〈 一 会 儿 执 行 ， 一 会 儿 停 止 ) 。 或 许 名 
字 也 起 源 于 这 种 联想 吧 。 


8 一 个 进程 由 一 个 以 上 的 线程 构成 。 


与 进程 不 同 ， 同 一 进程 的 线程 可 以 共 至 内 存 空间 。 所 以 ， 不 同 的 线程 
能 够 引用 同一 对 象 。 不 需要 经 过 将 数据 变 为 字 市 流 再 进行 通信 这 样 麻 
烦 的 处 理 ， 束 能 交换 信息 。 


Ruby 中 线程 机 制 以 标准 形式 提供 。Ruby 1.8 中 实现 的 线程 称 为 用 户 级 
线程 。 这 与 操作 系统 提供 的 内 核 级 线程 不 同 ， 不 能 够 活用 多 个 CPU 。 
而 且 ， 线 程 之 间 的 切换 成 本 很 咒 ， 会 耗费 一 部 分 处 理性 能 ， 对 机 器 的 


处 理性 能 不 利 。 但 是 ， 不 管 操作 系统 有 没有 提供 线程 功能 ， 任 何 操作 
系统 (包括 MS-DOS) 上 动作 都 相同 。 


POSIX 标准 中 规定 的 操作 系统 提供 的 线 


Ruby 1.9 中 ， 使 用 pthread 
程 功能 。 


能 够 轻易 进行 并 行 编程 ， 是 Ruby 的 优点 之 一 。 
10.3.2 ”生成 线程 


现在 来 看 看 用 Ruby 进行 线程 编程 。 图 10-20 是 一 个 使 用 线程 的 程序 示 
全 


9 本 例 中 ， 线 程 之 间 不 共有 信息 。 


Thread .newt{ 
loopt 
puts "thread 1" 
sleep 2 
} 
} 


loop { 
puts "main thread" 
sleep 3 


图 10-20 单纯 线程 程序 的 例子 

Thread .new 生成 一 个 新 的 线程 ， 该 线程 执行 其 下 面 的 一 段 程序 (第 

1 行 至 第 6 行 ) 。 请 注意 ， 这 段 程序 内 容 和 Thread ,new 之 后 的 内 容 
(第 7 行 以 后 ) 同时 执行 。 最 初 的 线程 每 隔 2 秒 输出 一 串 thread 1。 

随 着 线程 的 生成 ， 程 序 的 执行 分 成 了 两 个 流程 。 一 个 不 停 地 显示 

thread 1， 男 一 个 本 来 的 控制 流程 (被 称 为 主线 程 ，， 继 续 不 停 循 环 其 


loop， 每 3 秒 显 示 一 串 main thread 。 


让 程序 运行 一 会 儿 ， 厌 烦 了 就 按 Ctrl+C 中 断 。 执 行 如 图 10-21 所 示 。 


thread 1 
main thread 
thread 1 
main thread 
thread 1 
thread 1 
main thread 


thread 1 
main thread 


“sleep': Interrupt 
from -:14 


图 10-21 图 10-20 中 程序 的 执行 结果 “-:14:in ...” 以 下 是 执行 中 断 时 的 显示 内 容 


在 Thread 类 中 ， 有 表 10-3 所 示 的 Thread .new 等 类 方法 (class 
method) ， 还 有 后 面 将 会 用 到 的 如 表 10-4 所 示 的 实例 方法 (instance 


method) 。 


表 10-3 “Thread 类 的 类 方法 


Thread.abort_on_exception 


异常 时 中 断 进 各 


Thread.abort_on_exception=val 中 断 状 态 的 设 定 


Thread .current 


Thread.exit 


Thread.kill 
Thread.1ist 
Thread ,main 
Thread ,new 


Thread ,pass 


表 10-4 _ Thread 类 的 实例 方法 
方法 名 


Thread .fork 


线程 的 生 


执行 权 的 转让 


new 的 别名 


功 能 


[FTIR 


认 是 否 
发 程 终 
j 等 待 线程 终 


TR 


Cr 
a 


ER 
常 的 发 


re | 
Er 
. 返回 值 
各 


状态 


否 售 
ee 
een 


10.3.3 ”线程 的 执行 状态 


Ruby 的 线程 有 以 下 4 种 状态 。 所 有 线程 最 初 都 从 执行 (run) 状态 开 
始 。 各 种 状态 按 图 10-22 进行 状态 迁移 。 


stop, Sleep 
IO 等 


run: 执行 中 


严格 来 说 ，Ruby 的 线程 将 处 理 细 分 成 一 段 一 段 ， 区 玲 执 行 ， 与 其 说 执 
行 中 ， 不 如 说 执行 可 能 更 贴切 。 

stop: 停止 中 

停止 的 理由 有 IO 等 待 、 时 间 等 待 和 join 等 待 。IO 等 待 是 指 等 待 外 部 
输入 的 状态 。 时 间 等 竺 是 指 到 达 指 定时 间 为 止 ， 停 止 的 状态 (sleep 等 
"join 等 每 是 指 表 10-4 所 示 的 join 方法 里 ， 等 待 别 的 线程 终 


to_kill: 终止 处 理 中 


线程 被 强制 终止 ， 完 全 终止 之 前 ， 正 在 处 理 ensure™ 等 的 状态 。 比 如 
文件 关闭 处 理 等 。 


10 所 谓 ensure， 是 指 作为 后 处 理 中 执行 的 程序 块 。 


killed: 终止 


终止 处 理 完成 之 后 的 状态 。 一 旦 终止 之 后 ， 线 程 不 能 再 复活 。 终 止 之 
后 的 线程 ， 也 不 会 列 在 Thread ,1ist 方法 所 显示 的 一 栏 中 。 


调查 线程 现在 的 状态 ， 有 3 个 方法 ， 分 别 是 status 、alive? 和 
stop? 。status 返回 线程 现在 状态 的 字符 串 。 若 线程 处 于 活动 状 
态 ， 则 返回 run 、sleep 或 aborting 中 的 某 一 个 。 若 线程 处 于 
killed 状态 ， 则 返回 false 或 者 nil 。 


alive? 在 线程 处 于 活动 状态 的 时 候 返 回 true 。stop? 在 线程 终止 
的 时 候 返 回 true 。 终 止 包 含 killed 状态 。 


对 于 因 异 常 而 终止 的 线程 ， 调 用 表 10-4 中 的 join 方法 或 value 方 
法 ， 能 够 再 产生 一 次 导致 此 线程 终止 的 异 甫 。 对 于 检查 线程 中 是 否 发 
生 了 有 异常 ， 以 及 线程 对 应 的 异常 情况 ， 这 很 有 用 。 


t = Thread ,new{t.，.} 
t.join # 等 待 t 的 终止 


# 若 有 异常 ， 再 发 生 


join 方法 等 待 线程 的 终止 。Vvalue 方法 在 等 待 线程 终止 的 同时 ， 还 
要 返回 (该 线程 程序 块 的 ) 最 后 的 计算 值 。 


10.3.4 ”传递 值 给 线程 的 方法 
现在 再 来 看 一 个 使 用 线 程 的 程序 吧 (参见 图 10-23) 。 


require "socket" 


gs = TCPserver .open(0) 
loop do 

# 线程 的 启动 

# start 参数 传递 给 块 参数 
start(gs.accept) do |s| 


s.close 
end 
end 


图 10-23 ”使 用 线程 记述 的 socket server 


10-23 中 的 程序 是 使 用 线程 的 socket server 的 锥 形 。 接 受 了 来 自 客 
户 端的 连接 以 后 ， 束 生成 一 个 新 的 线 程 ， 然 后 将 处 理 交 给 它 。 线 程 是 
并 行 运行 的 ， 一 个 客户 端的 处 理 完成 之 前 ， 可 以 没有 任何 问题 地 处 理 
来 目下 一 个 客户 端的 连接 。 请 注意 这 里 给 线程 传递 值 的 方法 。 


10-23 中 ， 有 必要 说 明 一 下 Thread .start 的 参数 。 传 递 给 
Thread ,start 的 参数 被 赋值 给 块 参数 ， 这 可 用 于 给 线程 传递 值 。 
11 块 是 Ruby 特有 的 语法 。 它 是 可 以 追加 在 方法 调用 末尾 的 代码 块 。 其 表现 形式 是 方法 名 { 代 


码 }。 附 加 有 代码 块 的 方法 可 以 在 运行 时 调用 代码 块 的 内 容 。{ 代 码 } 中 以 | 变量 | 形式 所 声明 的 
变量 (如 图 10-23 中 的 |s|) 称 为 块 参数 。 


因为 可 以 从 代码 块 看 见 外 侧 的 变量 ， 所 以 变量 可 以 直接 引用 。 比 如 ， 
程序 的 循环 部 分 像 下 面 这 样 蔡 换 以 后 也 能 运行 。 


Ss = gs.accept 
Thread.start() do 
上 理 内 容 


但 时 机 不 好 时 ， 会 产生 误 动 作 。 也 束 是 说 ， 在 线程 处 理 完 成 之 前 ， 又 
去 执行 下 一 个 accept 时 ，s 的 值 可 能 被 奉 换 。 


在 线程 编程 时 ， 各 个 线程 同时 运行 ， 动 作 的 预想 比 通常 程序 要 困难 。 
可 以 说 需要 更 好 的 想象 力 。 


10.3.5 ”信息 共享 所 产生 的 问题 
使 用 线程 ， 在 并 行 处 理 中 可 以 简单 地 实现 信息 共享 。 但 也 并 不 是 光 有 
好 事 。 现 实 社会 也 是 这 样 ， 在 共同 生活 中 ， 如 果 彼 此 之 间 太 随便 ， 想 
于 什么 就 干什么 ， 那 么 关系 迟早 要 破裂 。 线 程 处 理 也 是 如 此 ， 有 可 能 
发 生 以 下 问题 。 

。 数据 完整 性 的 形 失 。 

。 死 锁 。 


不 管 哪 一 个 ， 与 其 说 是 线程 的 问题 ， 不 如 说 是 并 行 处 理 本 身 的 问题 。 
但 是 ， 线 程 要 共 至 内 存 空间 ， 比 其 他 的 并 行 处 理 更 容易 发 生 问 题 。 下 
面 逐 个 来 看 这 些 问 题 吧 。 


10.3.6 ”数据 完整 性 的 起 失 
从 刚才 图 10-23 的 例子 已 经 知道 ， 共 至 中 的 数据 如 果 被 更 改 了 ， 会 发 
生意 想不到 的 恶劣 影响 。 线 程 之 间 共 享 同 一 内 存 空 间 ， 可 能 无 意 间 同 


时 访问 了 同一 变量 或 同一 对 象 。 这 就 会 发 生 数 据 完 整 性 的 形 失 。 最 篆 
见 的 例子 是 银行 账户 (参见 图 10-24) 。 


用 户 A 账户 余额 用 户 B 


2000 日 元 


图 10-24 ”数据 完整 性 的 形 失 ， 银 行 交 易 的 例子 


对 于 时 一 银行 账户 ， 如 果 用 户 A 和 用 户 B 几乎 同时 访问 时 ， 融 会 出 问 


题 。 


简单 说 明 一 下 流程 。 用 户 A 查询 账户 余额 ， 取 出 2000 日 元 后 ， 将 老 
额 设 为 新 的 余额 。 另 一 方面 ， 用 户 B 也 同样 查询 账户 余额 ， 取 出 4000 


日 元 ， 将 老 额 设 为 新 的 余额 。 账 尸 最 初 只 有 1 万 日 元 ， 图 中 最 后 的 合 
计 金 额 (用 户 A、 用 户 B 和 银行 账户 ) 却 变 成 1.2 万 日 元 。 银 行 如 果 
真有 了 这 种 麻烦 ， 那 可 是 个 大 问题 。 


图 10-24 中 流程 的 淋 拙 之 处 在 于 多 个 线程 双 无 讲究 地 访问 同一 个 账 
户 。 在 至 今 已 经 习惯 按 次 序 执行 的 世界 里 ， 没 有 机 会 同时 引用 同一 数 
据 ， 不 知 不 觉 吏 会 乐 了 这 个 矛盾 情形 。 


在 并 行 处 理 环境 里 ， 从 余额 查询 开始 到 新 的 余额 设 定 为 止 ，( 别 的 处 
理 ) 不 能 中 途 插 入 。 这 样 不 能 分 割 的 处 理 称 为 原子 (atomic) 处 理 。 
在 原子 处 理 的 过 程 中 ， 和 需要 将 此 账户 保护 起 来 ， 不 能 让 别 的 线程 对 此 
账户 进行 操作 。 


10.3.7” 死 锁 


编程 中 所 说 的 死 锁 ， 古 指 多 个 线程 互相 争夺 资源 、 谁 也 动 不 了 的 状 
仿 。 经 典 的 案例 有 哲学 家 束 餐 问题 。 斩 学 家 束 餐 问题 如 下 所 壕 。 


5 个 哲学 家 围 坐 在 一 个 圆桌 券 (参见 图 10-25) 。 每 个 哲学 家 前 面 放 一 
个 盛 满意 大 利 面条 的 弄 子 。 每 个 强 子 两 边 各 放 一 根 秘 子 ( 共 5 根 ) 。 
哲学 家 从 早 到 晚 都 在 思索 ， 有 时 肚子 俄 了 ， 就 从 盘子 两 边 拿 筷子 吃 面 
条 。 哲 学 家 举止 得 体 ， 即 使 肚子 再 俄 ， 也 不 会 用 手 或 单 根 和 僻 子 吃 面 


条 。 


突然 ， 在 某 一 瞬间 ， 所 有 哲学 家 部 要 吃 面条 ， 假 设 部 拿 了 目 己 右边 的 
秘 子 。 再 想 拿 目 己 左边 筷子 的 时 候 ， 发 现 已 经 被 别 的 哲学 家 拿 走 了 。 
每 个 哲学 家 都 是 右手 拿 独 簧 和 于 ， 一 直 等 着 旁边 的 哲学 家 吃 完 。 但 是 ， 
谁 也 吃 不 成 ， 大 家 都 在 那儿 俄 者 。 


图 10-25 哲学 家 的 晚餐 。5 盘 意大利 面条 及 5 根 生子 交错 排 在 桌子 上 
像 这 样 ， 由 于 某 种 竞争 ， 处 理 永 远 陷 入 停止 状态 ， 我 们 称 之 为 死 锁 。 


多 个 并 行 处 理 共 享 的 资源 ( 称 为 resource， 这 种 情况 下 是 筷子 ) 不 足 
的 时 候 ， 如 果 访 问 步 又 考虑 不 周 的话 ， 束 会 引起 死 锁 。 

由 上 述 哲 学 家 的 情况 ， 我 们 可 以 知道 问题 出 在 资源 的 访问 顺序 上 。 不 
仅 限 于 此 问题 ， 在 很 多 场合 ， 访 问 顺序 的 整理 都 是 很 重要 的 。 比 如 
说 ， 所 有 哲学 家 ， 如 果 能 芙 彻 执 行 以 下 规则 ， 就 可 以 规避 和 死 锁 疙 。 


12 严格 地 说 ， 全 体 成 员 的 动作 有 可 能 同时 发 生 ， 所 以 还 必须 考虑 放下 筷子 的 时 刻 。 


E 取 右边 的 筷子 。 
左边 的 筷子 拿 不 到 的 话 ， 就 放下 右边 的 筷子 。 


10.3.8 ”用 锁 来 实现 对 资源 的 独占 


银行 的 例子 也 好 ， 哲 学 家 的 例子 也 好 ， 如 果 同 时 访问 资源 ， 束 会 成 为 
程序 的 陷阱 。 


规避 资源 的 同时 访问 ， 有 几 种 方法 ， 其 中 最 简单 的 是 独占 使 用 中 的 资 
源 。 为 此 ， 提 供 了 资源 的 “ 锁 ” 这 一 手段 。 


现实 社会 里 ， 最 第 见 的 “ 锁 ?， 大 概 束 是 厕所 的 单间 吧 。 厕 所 的 单间 ， 
一 次 只 能 供 一 个 人 使 用 。 有 人 进去 了 ， 束 加 上 锁 。 从 外 面 看 是 红 记 


号 ， 就 知道 有 人 在 里 面 。 线 程 处 理 也 是 一 样 ， 使 用 仅 有 的 资源 的 时 
候 ， 丈 加 上 锁 ， 加 上 一 个 “独占 中 ”的 记号 束 行 了 。 


银行 账户 的 例子 中 ， 对 账户 进行 一 连 串 操作 的 过 程 中 将 账户 加 上 锁 ， 
中 人 还 不 允许 别 的 操作 挤 进来 ， 束 可 以 解决 死 锁 问 题 。 哲 学 家 的 例子 
中 ， 在 抓 住 两 边 秩 子 时 加 上 锁 ， 使 得 别 的 暂 学 家 不 能 干扰 ， 囊 能 够 规 
避 死 锁 问 题 。 


Ruby 里 ， 加 锁 用 Mutex 类 。Mutex 是 互 不 锁 (Mutual Exclusive 
Lock) 的 缩写 。 使 用 Mutex 类 ， 需 要 require thread 库 (参见 图 
10-26) 。 


require 'thread' 


m = Mutex.new 


m.synchronize { 


...# 使 用 资源 的 处 理 


} 


图 10-26 Mutex 类 的 使 用 示例 


Mutex 类 的 synchronize 方法 ， 用 于 处 理 该 代码 块 时 ， 对 Mutex 对 
象 进行 加 锁 蕊 。 别 的 线程 想 要 对 同一 个 Mutex 对 象 执行 
synchronize 方法 时 ， 必 须要 等 到 现在 执行 中 的 Synchronize 方 
法 完成 并 解锁 之 后 才能 进行 。synchronize 围 起 来 的 代码 块 ， 是 别 
的 线程 不 能 侵入 的 领域 ， 有 时 称 为 critical section 。 


13 代码 块 执 行 后 ，Mutex 的 锁 自动 解放 。 


不 能 起 记 的 是 ，Mutex 无 非 是 一 个 君子 协定 。 实 际 上 不 检查 锁 惑 可 以 
操作 和 资产， 并非 目 动 茜 止 。 用 锁 来 保护 资源 的 时 候 ， 别 筷 了 对 所 有 次 
源 的 访问 都 要 检查 锁 。 


为 了 使 用 Ruby 让 这 个 检查 变 得 聪明 些 ， 对 资源 的 访问 全 部 要 经 由 某 
一生 定 的 对 象 ， 由 这 个 对 象 的 方法 在 内 部 对 锁 进 行 检查 (参见 图 10 
27) 。 


class Resource 
def initialize 
Q@mutex = Mutex.new 
end 
def use 
@mutex.synchronizef 


end 
end 


r = Resource.new 
r.use 


图 10-27 访问 资源 的 专用 类 之 记述 示例 


Java 中 ， 方 法 定义 声明 为 synchronize ， 该 方法 被 调用 时 自动 加 
锁 。 


10.3.9 ”二 级 互 斥 


很 遗憾 ， 锁 的 问题 并 不 全 是 Mutex 所 能 黎 盖 的 单纯 事例 。 比 如 数据 库 
中 ， 对 数据 的 访问 需要 以 下 多 种 互 不 控制 。 


。 可 以 同时 引用 。 

。 禁止 同时 更 新 。 

禁止 更 新 中 引用 。 

禁止 引用 中 更 新 。 

ed 0 (二 级 互 不 ) ， 在 文件 读 取 时 也 经 常 


现实 世界 中 也 有 类 似 例子 。 比 如 看 电视 和 更 换 频 道 相当 于 二 级 互 不 ， 
如 果 有 个 人 在 看 电视 ， 残 不 让 别人 看 同一 个 频道 ， 这 种 独占 就 太 过 分 
了 。 但 如 果 没 有 任何 互 斥 控制 ， 正 看 在 劲头 上 ， 别 人 却 换 了 频道 ， 丈 
让 人 讨厌 了 。 


这 种 情况 下 ， 使 用 sync .rb 中 定义 的 Sync 类 。Sync 类 和 Mutex 
同样 使 用 ， 但 有 一 个 区 别 。synchronize 方法 可 以 指定 互 斥 模式 。 


互 不 模式 有 两 种 ， 一 种 是 EX 模式 ， 一 种 是 SH 模式 。EX 模 式 像 更 新 一 
样 ， 同 时 只 能 有 一 个 执行 。SH 模 式 与 EX 模式 虽然 不 能 同时 执行 ， 但 
与 其 他 模式 并 不 互 不 。 这 两 种 模式 分 别 以 :EX 和 :SH 指定 。 


现在 ， 把 Sync 类 看 做 电视 机 吧 (参见 图 10-28) 。 编 程 内 容 有 点 不 自 
然 ， 将 就 一 下 吧 。 正 如 Mutex 所 示 ， 资 源 电 视 机 ) 对 象 的 方法 
start_watch ，end_watch ，set_ch 中 先入 排他 控制 。 这 样 更 明 
智 一 些 。 


require "Sync 


class TV 
def initialize 
Q@ch = 1 
Q@sync = Sync.new 
end 
# 开始 看 电视 
def Start_watch 
@sync.1lock( :SH) 
end 
# 看 完 电 视 
def end_watch 
@sync.unlock( :SH) 
end 
def set_ch(ch) 
@sync.synchronize( :EX){ 
@ch = ch # 换 频道 
} 
end 
end 


EE 视 问 题 的 示例 


图 10-28 使 用 Sync 类 的 互 斥 模 式 解 决 看 
10-28 中 的 TV 类 里 ， 有 人 在 看 电视 的 时 候 ， 不 能 更 换 频 道 。 只 有 在 


没 人 看 电视 的 时 候 ， 才 能 给 予 频道 变更 权 。 这 样 做 ， 丈 避免 了 有 人 独 
占 电 视 ， 或 者 有 人 正在 看 电视 时 更 换 频 道 的 事态 。 


10.3.10 ”用 队列 协调 线程 


使 用 锁 对 资源 进行 互 不 控制 ， 古 线程 间 保证 协调 的 一 种 机 制 。 除 了 锁 
以 外 ， 为 了 保证 协调 ， 还 有 别 的 方法 。 


本 来 问题 的 根源 就 在 于 多 个 进程 访问 同一 资源 ， 如 果 不 进行 这 种 访问 
就 好 了 。 这 种 方法 ， 因为 没有 共 tk 享 的 东西 ， 而 被 称 为 无 共享 (shared 


nothing) 。 


为 了 实现 无 共 圣 ， 给 每 个 资源 准备 一 个 管理 用 的 线程 ， 各 线程 间 只 外 
交换 菜 些 隐 定 的 信息 局 。 


线程 则 信息 交换 的 方法 有 很 多 种 ， 有 代表 性 的 有 消息 存储 (message 
banking) 、 信 道 (channel) 及 队列 (queue) 。 


这 里 介 绍 通过 队列 进行 的 线程 间 通 信 。 。 在 无 共享 结构 里 ， 某 一 线程 制 
作 数据 男 一 线程 通过 队列 获取 数据 ， 然 后 进行 下 一 步 处 理 。 


这 种 关系 称 为 生产 者 一 消费 者 模型 ， 制 作 数据 的 线程 称 为 生产 者 
(producer) ， 获 取 数 据 的 线程 称 为 消费 者 (consumer) (参见 图 10- 
4 数据 进行 加 工 ， 传 递 给 别 的 消费 者 ， 承 担 着 生 
产 


图 10-29 ”生产 者 一 消费 者 模型 ， 通 过 队列 进行 线程 间 通信 
连接 生产 者 和 消费 着 ， 起 着 “传送 融 * 作 用 的 是 Queue 类 。 队 列 是 具有 
FIFO (first-in，first-out， 先 进 先 出 ) 性 质 的 数据 集合 ， 恰 如 其 名 ， 先 
进来 的 数据 先 出 去 。 


来 看 一 个 实际 使 用 Queue 类 的 程序 吧 (参见 图 10-30) 。 


require "thread ' 


q = Queue.new 


producer = Thread.new { 
10.times {|i| 
dq.push(i) 
sleep(1) 


dq.push(nil) 


consumer = Thread.new { 
loopt 
i = q.pop 
break if i == nil 
puts i 


consumer .join 


图 10-30 Queue 类 的 使 用 示例 


生产 者 每 秒 往 队列 里 追加 (push) 一 个 整数 ， 消 费 者 从 队列 里 取出 
(pop) 数字 输出 。 消 费 者 速度 快 ， 队 列 变 空 之 后 ， 消 费 者 暂停 4 ， 直 
至 生产 者 往 队 列 里 追加 数据 。 


14 图 10-30 中 的 场合 ， 因 为 有 sleep(1) ， 所 以 生产 速度 < 消费 速 


尊 


生产 者 送出 一 定 个 数 的 整数 之 后 ， 会 送出 一 个 表示 终止 的 标识 nil 。 
消费 者 接收 到 nil 后 ， 用 break 跳出 循环 。 主 线程 通过 程序 最 后 一 
行 的 join ， 等 得 消费 者 线程 的 执行 。 执 行 结果 如 图 10-31 所 示 。 


% ruby q.rb 
0 


图 10-31 图 10-30 中 程序 的 执行 结果 


那么 ， 假 设 生 产 者 比 消费 者 快 ， 将 会 脏 样 呢 ? 来 不 及 消费 的 数据 积压 

在 队列 里 ， 队 列 的 长 度 会 越 来 越 长 。 如 采 来 不 及 消费 ， 也 许 束 没 必要 

全 力 生 产 数据 。 

这 种 情况 下 ， 便 利 的 是 SizedQueue 类 。 生 成 一 个 长 度 有 一 定 限制 的 
队列 ， 数 据 积累 到 一 定数 量 ， 丈 停止 追加 数据 了”。SizedQueue 的 使 


用 方法 很 简单 ， 在 刚才 的 程序 里 ， 只 要 把 下 面 的 第 1 行 换 成 下 面 的 第 
2 行 即 可 。 


15 这 样 束 不 会 丢失 来 不 及 消费 的 数据 。 


= QUueue.new 
= SizedQueue.new(size) 


q 
q 
size 部 分 放 入 队列 的 最 大 长 度 。 不 管 是 生产 太 快 ， 还 古 消费 太 快 ， 
都 能 目 动 调整 。 


队列 也 可 用 于 解决 资源 的 竞争 。 准 备 一 个 用 于 管理 资源 的 线程 ， 对 资 
源 的 请 求 (request) 通过 队列 发 送 给 该 线程 (参见 图 10-32) 。 


图 10-32 ”用 队列 解决 资源 竞争 的 方法 
这 样 ， 直 接 操 作 资 源 的 只 有 管理 线程 ， 因 此 不 会 发 生 葛 和 争 。 
有 一 个 实例 。Ruby/Tk ” 采用 这 种 方法 。 多 个 线程 不 能 同时 访问 通过 


Tk 的 GUI 操作， 来 目 各 个 线程 的 GUI 命令 都 通过 队列 发 送 到 管理 线 
程 。 管 理 线程 调用 Tk 库 来 处 理发 送 过 来 的 GUI 命令 。 


16 所 谓 Ruby/Tk， 是 Ruby 与 GUItoolkit Tk 组 合 而 成 的 处 理 系统 。 


10.3.11 ” 锁 模 型 与 队列 模型 的 比较 


如 果 与 线程 相关 的 程序 出 了 问题 ， 那 么 排 错 (debug) 起 来 可 就 难 了 。 
与 线程 相关 的 程序 错误 (bug) 往往 因为 时 机 不 同 ， 有 时 发 生 ， 有 时 不 
发 生 。 即 使 执行 同样 的 程序 ， 错 误 要 么 不 能 再 现 ， 要 么 10 次 之 中 只 
成 为 性 质 亚 盆 的 程序 错误 。 这 是 软件 错误 中 最 难 排除 的 一 


这 次 特意 没有 同时 访问 多 个 资源 ， 回 避 了 线程 编程 中 容易 出 现 的 问 
题 。 但 是 ， 资 源 的 访问 说 起 来 简单 ， 事 实 上 ， 因 为 含有 方法 调用 、 变 
量 引用 等 许多 琐碎 的 处 理 ， 难 免考 虑 不 周 。 


作为 防止 资源 竞争 的 手段 ， 按 顺序 分 别 介绍 了 使 用 锁 的 锁 模 型 和 使 用 
队列 的 队列 模型 。 不 能 说 哪 种 更 优秀 ， 它 们 各 目 有 以 下 特征 。 


锁 模 型 


如 琳 范 争 足够 少 ， 多 数 情 况 下 能 保持 较 高 性 能 。 但 是 ， 对 于 资源 的 苋 
争 ， 不 能 起 记 加 锁 。 要 做 到 完美 无 缺 较 难 。 


队列 模型 


在 范 争 少 的 时 候 ， 其 性 能 比 不 上 锁 模 型 ， 但 对 于 程序 员 来 说 ， 它 比 锁 
模型 更 容易 贯彻 。 虽 然 各 种 处 理 系统 的 表现 不 尽 相 同 ， 但 这 种 方法 很 
少 会 因为 线程 增多 而 带 来 性 能 低下 的 恶 采 。 


最 近 ， 有 一 种 语言 Erlang， 在 一 部 分 人 中 成 为 话题 。 该 语言 采用 了 与 
队列 模型 本 质 上 等 价 的 消息 存储 。Erlang 中 ， 即 使 线程 (Erlang 中 称 
process) 的 数目 很 多 ， 也 很 少 会 有 性 能 低下 的 现象 ， 多 核 时 还 能 最 大 
限度 地 发 挥 多 个 CPU 的 优势 。 今 后 ， 多 核 或 具有 扩展 性 的 队列 模型 或 
许 会 成 为 主流 。 


随 看 CPU 电路 的 微小 化 ， 性 能 的 提高 也 会 达到 其 物理 极限 。 在 不 远 的 
将 来 ，CPU 的 热 密 度 或 将 达到 火箭 喷射 口 的 程度 ， 而 且 ， 根 据 光 速 
1 个 时 钟 周期 内 电子 能 够 移动 的 距离 也 只 能 达到 几 厘 米 的 水 


17 现在 的 CPU 的 热 密 度 也 比 热 板 高 。 热 板 是 吃 烤肉 时 用 于 加 热 的 铁 板 。 


多 核能 够 超越 此 极限 ， 想 要 达到 更 高 的 性 能 ， 多 核 成 为 必然 的 途径 。 
在 多 核 环 境 下 ， 如 有 果 软 件 还 像 现 在 这 样 ， 束 不 能 充分 享受 CPU 的 性 能 
提高 所 市 来 的 好 处 。 


为 了 达到 高 性 能 ， 软 件 必 须 提供 对 并 行 编程 的 文 持 。 所 以 ， 对 编程 语 
言 来 说 ， 并 行 处 理 今后 肯定 会 成 为 非常 热门 的 话题 。 关 于 性 能 和 扩展 
性 ， 现 在 还 是 Ruby 的 弱点 ， 是 今后 要 解决 的 读 题 。 


10.4 ”前景 可 期 的 并 行 编程 技术 ，Actor 


前 一 让 我 们 已 经 看 到 ， 线 程 编程 容易 变 得 复 洒 化 ， 不 但 因为 同步 和 竞 

争 容易 引起 问题 ， 而 且 一 旦 发 生 问 题 ， 症 状 会 因 时 机 不 同 而 变化 ， 以 

0 
理 吧 。 


并 行 编程 ， 要 求 有 更 高 的 抽象 度 和 对 人 类 而 言 更 简单 的 编程 模型 。 
Curl Hewitt 提倡 的 “Actor Model” (参与 者 模式 ) 或 许 会 成 为 这 个 问题 
的 答案 。 


10.4.1 何谓 Actor 


前 言 就 说 这 么 多 。 还 是 来 看 Actor 是 什么 吧 。 所 谓 Actor， 是 ( 仅 ) 通 
过 消息 (message) 进行 通信 的 实体 。 


单 从 这 个 定义 来 看 ， 好 像 与 面向 对 象 语言 的 对 象 也 没什么 区 别 ， 但 
实 还 是 有 的 。 向 对 象 发 送 消息 (方法 调用 ) ， 调 用 开始 后 ， 会 一 
到 返回 结果 ， 是 一 种 同步 方式 。 而 同 Actor 发 送 消 轧 ， 仅 仅 是 发 送 消 
县 而 不 等 返回 结果 ， 是 一 种 异步 方式 。 


作为 并 行 处 理 的 机 制 ， 大 家 都 知道 线程 。 多 个 控制 流 同时 运行 的 线 
程 ， 非 常 简 单 和 容易 实现 ， 如 有 宁 协 调和 同步 方面 不 需要 花费 很 大 成 本 
的 话 ， 训 能够 得 到 很 高 的 性 能 。 


丸 一 方面 ，Actor 基本 上 仪 仅 通 过 消 恩 进行 信息 交换 。 因 为 不 能 直接 共 
诗 同一 个 值 ， 信 息 传达 上 束 要 多 伦 些 代价 。 
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但 是 ， 为 了 避免 线程 间 资 源 竞 争 ! ， 需 要 动用 锁 或 者 队列 等 各 种 方法 
来 保护 对 次 务 源 的 访问 。 


1 所 谓 资 源 竞争 ， 是 指 多 个 线程 同时 访问 同一 资源 〈 变 量 、 设 备 等 ) ， 由 于 时 机 不 同 ， 执 行 
结果 变 得 不 确定 ， 或 者 程序 状态 变 得 不 完整 。 


Actor 由 于 没有 消息 以 外 的 信息 传递 手段 ， 所 以 不 用 担心 Actor 之 间 的 

资 Ue 发 送 给 Actor 的 消 恩 ， 都 配送 到 各 个 Actor 所 拥有 的 邮箱 

“2 个 消息 同时 到 达 时 的 竞争 ， 已 经 由 内 乱 到 条 统 中 的 排除 机 制 来 
于 


Actor 有 一 个 大 的 优点 是 安全 ， 但 更 大 的 优点 是 “ 易 懂 ?。Actor 根据 消 
忆 进 行 公理 ， 必要 的 话 ， 会 向 其 他 Actor 传递 消 忌 ， 或 者 向 产 Actor 
返回 请 轧 。 


这 与 现实 世界 中 人 与 人 之 间 的 相处 没有 大 的 兰 别 。 现 实 世 界 中 ， 别 人 
在 想 什 么 你 不 知道 ， 想 要 求 什么 时 ， 需 要 通过 某 种 手段 传达 “ 消 忆 ”。 


另外 ， 通 过 消息 接受 某 种 要 求 的 人 ， 与 提出 要 求 的 人 独立 开展 工作 。 

工作 完成 之 后 ， 发 送 “ 完 成 ”的 消息 返回 给 提出 要 求 的 人 。 对 于 我 们 而 
这 种 方法 非常 目 然 ， 整 体 处 理 流程 也 容易 把 握 。Actor 原意 是 演 
， 正 如 这 个 字面 意思 ，Actor (演员 ) 与 其 他 Actor (演员 ) 通过 台 
词 (消息 ) 对 日 ， 完成 他 的 角色 ， 将 剧情 (程序 ) 进行 下 去 。 


简单 总 结 一 下 ， 理 论 上 要 达到 最 高 性 能 ， 一 般 认为 线程 更 优秀 。 但 如 
末 不 注音 使 用 线程 的 话 ， 会 出 现 汪 时 机 相关 的 俯 记 灿 的 问 是 。 。 在 计算 
机 性 能 日 渐 提 高 的 今天 ， 与 理 } 人 上 最 高 性 能 的 可 能 性 相 比 ， 由 Actor 
实现 的 安全 性 和 易 懂 性 更 引 人 注 目 。 


10.4.2 ”操作 Actor 的 3 种 处 理 系统 

下 面 介 绍 操作 Actor 的 3 种 处 理 系统 。 为 了 将 处 理 系统 的 区 别 突出 出 
来。 我 们 使 用 夫 同 的 例题 。 例 题 是 名 叫 pingpong 的 程序 。 该 程序 进行 
> 理 . 


1. 生成 两 个 Actor:; 


下 河 ml 


2. 首先 ， 回 一 个 Actor 发 送 循环 次 数 和 包含 男 一 个 Actor 信息 的 消 
县 ; 


3. 接收 消 居 的 Actor 将 循环 次 数 减 1， 返 回 消 恩 给 另 一 Actor; 
4. 重 复 以 上 请 妃 的 发 送 和 接收 ， 直 至 循环 次 数 变 为 0。 


两 个 Actor 互相 发 送 消息 ， 像 打 乒 乓 球 (pingpong) 一 样 。 虽 然 是 特 
意 编造 的 例题 ， 却 能 表现 各 个 处 理 系统 如 何 进 行 Actor 最 根本 的 处 
理 ， 即 Actor 如 何 生 成 ， 消 息 如 何 发 送 和 接收 。 


首先 要 介绍 一 下 采用 Actor Model 的 函数 型 语言 Erlang。 因 Actor 
Model 的 并 行 编 程 而 最 近 才 受到 瞩目 的 Erlang 是 很 古老 的 语言 ， 于 
1987 年 左右 由 瑞典 的 电话 公司 爱立信 (Ericsson) 所 开发 。 


Erlang 这 个 名 字 ， 来 源 于 丹麦 的 数学 家 、 统 计 学 家 及 技术 学 家 Anger 
Krarup Erlang。 读 作 “ 阿 即 ”， 北 欧 人 发 "阿尔 ”首发 得 清晰 ， 把 这 个 字 读 
作 * 艾 尔 即 ? 估 计 也 不 会 错 吧 。 


Erlang 语言 因 人 而 得 名 ， 但 隐 含 着“ 爱立信 的 语言 "这 种 意思 。Erlang 
实际 上 用 在 像 爱 立信 的 交换 机 程序 那样 的 大 规模 而 且 复 杂 的 应 用 上 。 
Erlang 虽然 积 素 了 长 年 的 实践 经 验 ， 但 目 从 1998 年 处 理 系统 开放 源 代 
码 以 来 ，Erlang 给 爱立信 以 外 的 人 的 印象 ， 仍 然 是 未 知 的 技术 。 


Erlang 是 只 人 允许 单一 赋值 的 画 数 型 语言 。 所 谓 单一 赋值 ， 是 指 一 旦 赋 
值 ， 变 量 的 值 束 不 允许 再 改变 。“ 变 量 的 值 现在 变 成 什么 ?” 这 是 程序 
排 错 (debug) 中 的 重要 课题 。 但 在 Erlang 中 ， 能 够 保证 所 赋 的 值 一 
直 不 变 ， 这 一 点 可 以 帮助 程序 员 比 较 容 易 地 找 出 问题 所 在 。 


但 是 ，Erlang 的 最 大 特征 还 是 Actor Model 编程 。Erlang 中 ，Actor 
Model 是 基本 ， 几 乎 所 有 人 处 理 都 用 Actor。Erlang 中 ， 将 Actor 称 为 
process。 这 容易 与 操作 系统 的 进程 (process) 混 消 ， 但 据说 因为 是 不 
像 线程 那样 共享 状态 ， 所 以 被 称 为 process。 


10.4.3 Erlang 的 程序 


那么 ， 看 看 用 Erlang 写 的 pingpong 程序 吧 (参见 图 10-33) 。 第 1 
行 的 *-module(ping)” 是 模块 声明 。Erlang 的 程序 ， 总 是 从 模块 声明 开 


始 。 模 块 名 必须 与 文件 名 相同 。 从 这 一 行 可 以 知道 ， 程 序 以 文件 名 
ping.erl 保 存 。 


1 -module(ping). 
2 -export([main/1,start/1,pingpong/1]). 


pingpong(Name) -> 
receive 

{_, 0} 
io:format("~s:done~n", [Name|]); 

{Partner, Count} -> 
if ((Count rem 500) < 2) -> 

io:format("~p: pingpong ~p~n", [Name, Count]); 

true -> true 
end, 
Partner ! {self(), Count -1}, 


pingpong(Name) 


end 


start(N) -> 
Pong_PID = spawn(ping, pingpong, [pong]), 
Ping_PID = spawn(ping, pingpong, [ping]), 
Pong_PID ! {Ping_PID, N}. 


main([A]) -> 
start(list to _integer(atom to_ list(A))), 
init:stop(). 


图 10-33 用 Erlang 写 的 pingpong 程序 


第 2 行 声 明 是 能 够 从 模块 之 外 访问 的 画 数 名 。 和 名 字 后 面 的 /1 ， 是 参数 
个 数 的 意思 。Erlang 中 ， 人 允许 存在 函数 名 相同 而 参数 个 数 不 同 的 函 
数 ，/1 是 为 了 明示 这 个 区 别 。 这 与 Prolog 语句 的 记 法 相同 ， 说 明 画 
数 型 语言 Erlang 实际 上 受到 了 Prolog 相当 的 影响 。 

第 4 行 定义 pingpong 函数 。 内 容 暂且 放 在 后 面 说 明 ， 先 注意 一 下 变 
量 都 是 以 大 写字 母 开始 的 这 一 点 。 还 有 ， 以 小 写字 母 开 始 的 标识 符 都 
是 符号 名 (symbol) ， 这 也 很 像 Prolog 。 


10.4.4 Pingpong 处 理 的 开始 


颠倒 一 下 说 明 的 顺序 。 第 17 行 开 始 的 start 琅 数 ， 是 实际 上 
pingpong 开始 处 理 的 函数 。 第 18 行 与 第 19 行 的 spawn 生成 新 的 
process。Spawn 只 以 函数 为 参数 ， 这 里 使 用 的 3 个 参数 分 别 是 模块 
名 、 函 数 名 和 传递 给 函数 的 参数 。 


以 spawn 生成 的 新 process 为 基础 ，pingpong 函数 开始 执行 ， 
pingpong 函数 以 receive 语句 等 待 消息 发 送 来 。spawn 返回 新 生 
成 的 process 的 ID。 


这 样 就 生成 了 两 个 process。 以 同 其 中 一 个 发 送 消 息 开始 pingpong 
。Erlang 中 用 ! 运 算 符 辣 process 发 送 消 已 。 左 边 是 发 送 消息 的 目标 
process， 右 边 是 具体 的 消息 。Erlang 中 ， 消 息 可 以 使 用 任意 值 ， 但 这 
次 发 送 的 消息 是 pingpong 对 象 的 process ID 和 所 剩 循环 次 数 的 2 


傍 。 


消息 发 送 过 来 之 后 ， 用 receive 语句 等 待 着 的 process 开始 运行 。 
receive 语句 对 发 送 过 来 的 消息 进行 模式 匹配 ， 按 消息 内 容 分开 处 
理 。 


模式 匹配 中 ， 如 有 果 指 定 的 是 具体 的 值 (符号 名 、 数 值 等 ，， 就 检查 
指定 值 是 否 一 致 ， 如 果 指 定 的 是 变量 (以 大 写字 和 母 开始 的 字符 串 ) ， 

束 风 予 对 应 的 值 。 模 式 匹配 从 上 开始 ， 选 择 最 初 的 匹配 进行 相应 的 处 
理 。 


当 计 数 器 到 达 0 的 时 候 ， 匹 配 {_, 0}。_ 能 匹配 任何 字符 ， 在 不 关心 
匹配 的 值 时 使 用 。 这 里 重要 的 只 是 循环 次 数 为 0， 而 并 不 关心 对 方 是 
哪个 过 程 ， 所 以 就 用 _ 来 匹配 过 程 名 。 


当 计 数 器 到 达 0 的 时 候 ，pingpong 函数 送出 done 消息 并 结束 。 
Erlang 中 io:format 是 高 格式 输出 函数 。C 与 Ruby 中 的 %， 在 
Erlang 中 成 为 ~。 


{Partner, Count} 对 消息 进行 模式 匹配 。 对 象 process 的 ID 赋值 给 
Partner ， 剩 下 的 循环 次 数 赋值 给 Count 。 如 果 除 以 500 的 余数 是 
0 或 者 1， 就 输出 现在 的 循环 次 数 ， 并 癌 Partner 返回 消 忆 。Erlang 
中 ，% 是 注释 记号 ， 求 余数 用 rem 运算 符 。 除 以 500 的 余数 是 0 或 1 
时 输出 循环 次 数 ， 是 因为 想 在 两 方 process 中 都 进行 输出 。 


if 语句 中 的 true -> true ， 是 不 让 编译 器 输出 编译 错误 的 “ 护 吴 
符 ”。Erlang 中 包括 if 语句 ， 各 种 东西 者 是 表达 式 ， 而 且 都 是 有 值 
的 。 如 果 没 有 相当 于 别 的 语言 的 else 部 分 的 true -> 部分， 就 会 被 
认 作 十 值 不 确定 ， 从 而 产生 编译 错误 。 实 际 上 这 里 if 语句 的 值 没 有 
使 用 ， 我 觉得 不 这 样 指定 好 像 也 没关系 。 


第 14 行 递 归 调 用 pijngpong 函数 ， 这 称 为 末尾 递归 ， 用 于 实现 循 
环 。 实 际 上 了 画 数 型 语言 Erlang 没有 实现 循环 的 语法 。 想 实现 循环 的 时 
候 就 用 末尾 递归 。 


总 觉得 无 限 递归 ， 最 终 会 用 光 堆 栈 ， 从 而 导致 错误 。 但 Erlang 中 会 对 
未 尾 递归 进行 特别 处 理 ， 不 用 担心 。 


10.4.5 “启动 pingpong 程序 


现在 启动 bingpong 程序 试 试 吧 。 如 果 安 装 了 Erlang 处 理 系 统 ， 肯 定 
可 以 使 用 er1 命令 。er1l 命令 不 带 参 数 时 ， 将 启动 对 话 环境 (参见 图 
10-34) 。 


% erl 

Erlang (BEAM) emulator version 5.6.3 [source] [smp:2] [async- 
threads:0] 

[kernel-poll:falsel] 


Eshell v5.6.3 (abort with ^G 
1> c(ping). -ping 模块 的 编译 
{ok, ping} 


2> ping:start(1000). -ping 的 启动 
apong: pingpong 1000 
ping: pingpong 501 


-环境 的 终止 


图 10-34 ”erl 的 对 话 环 境 


假设 pingpong 程序 保存 在 ping.erl 文件 里 。 首 先 用 c 命令 编译 。 为 
了 执行 Erlang， 必 须 将 源 代 码 编译 成 字 节 人 码 解释 器 BEAM 能 够 识别 的 


格式 。 编 译 以 后 就 可 以 利用 ping ,erl 中 声明 的 函数 。 每 次 修改 
ping.erl 后 ， 都 要 用 C 命令 再 次 装载 。 


执行 start 函数 以 后 ， 按 参数 指定 的 次 数 执行 pingpong。 
pingpong 完成 指定 次 数 以 后 ， 输 出 done 。 


当然 ， 不 经 过 er1 的 对 话 环境 ， 也 可 以 直接 局 动 程序 (参见 图 10- 
35) 。 这 种 情况 下 ， 启 动 erlc 编译 器 ， 将 源 代 码 直接 编译 成 字 节 
码 ， 然 后 给 命令 加 选项 -noshell 启动 非 对 话 环境 的 erl 。 


% erlc ping.erl 

% erl -noshell -s ping main 1000 
: pingpong 1000 
: pingpong 501 
: pingpong 500 


: pingpong 1 
: done 


图 10-35 pingpong 程序 的 直接 运行 


这 种 情形 下 ， 从 ping 模块 的 main 函数 开始 执行 。 第 22 行 的 main 
函数 从 命令 行 的 参数 接受 循环 次 数 ， 并 担当 程序 执行 完成 后 解释 器 的 
终止 处 理 。atom_to_1list 函数 将 符号 名 变 为 字符 串 ， 
list_to_integer 将 字符 串 变 为 数值 。 另 外 ，init:stop 函数 结 
束 process。 


这 次 ， 为 了 这 道 例题 ， 我 很 久 以 来 再 次 挑战 Erlang 编程 。 由 于 没有 特 
环 ， 不 习惯 以 发 送 消息 为 基本 的 编程 等 等 ， 觉 得 有 些 难受 。 还 有 ， 老 
是 记 不 住 Erlang 的 逗号 、 分 号 或 句号 该 如 何 分 开 使 用 ， 错 误 频 发 。 但 
一 旦 习惯 了 这 独特 的 编程 风格 ， 我 觉得 生产 效率 也 会 很 高 。 


10.4.6 ”Erlang 的 错误 处 理 
如 果 有 大 量 的 process， 就 总 会 有 因为 程序 错误 、 有 异常 数据 和 输入， 还 有 


其 他 很 多 预测 不 到 的 理由 ， 导 致 process 异常 终止 。 正 在 进行 大 量 数 据 
处 理 的 时 候 ， 总 是 想 避 免 因为 一 个 异常 而 将 全 部 处 理 作 废 的 事情 。 对 


于 有 扩展 性 的 系统 ， 重 要 的 是 ， 即 使 发 生 了 异常 事态 ， 也 不 至 于 全 体 
系统 都 停止 。 


Erlang 中 ， 通 过 发 送 消息 来 通知 异常 终止 。 通 过 link 机 制 将 process 与 
process 链接 (link) 起 来 。 被 链接 起 来 的 process 在 终止 之 前 ， 往 链接 
目标 发 送 消 息 说 “我 要 死 了 ”。 收 到 消息 的 process 料理 死去 的 process 
的 后 事 。 


有 了 这 种 机 制 ， 使 得 Erlang 适合 于 构筑 抗 障碍 性 强 的 系统 。 这 不 禁 让 
人 想起 Erlang 长 年 使 用 于 电话 交换 机 这 样 重要 领域 的 骄 人 业绩 。 


10.4.7 Erlang 的 使 用 场所 


Erlang 在 通常 的 文本 处 理 中 并 不 怎么 快 ， 比 如 说 ， 用 Ruby 进行 的 处 
理 ， 全 部 移植 到 Erlang 上 去 ， 基 本 上 没什么 好 处 。Erlang 的 好 处 还 是 
其 扩展 性 。 对 于 多 个 处 理 并 列 执行 的 情况 ， 分 割 成 合适 的 Erlang 
process， 能 够 发 挥 多 CPU 的 威力 。 


同样 的 多 任务 分 割 虽 然 用 操作 系统 的 进程 或 线程 也 能 实现 ， 但 Erlang 

的 process 与 操作 系统 的 进程 或 线程 相 比 ， 能 够 轻 量 实现 (1 个 process 
最 小 只 耗费 300 字 节 ) ， 即 使 有 大 量 process 也 不 必 有 顾虑 ， 尽 管 生 成 就 
是 了 。 更 进一步 说 ，Erlang 设计 思想 不 用 process 连 基本 处 理 都 不 能 实 
人 ne 0 这 样 更 加 有 利于 发 
| 导语 } 于 a 


像 服务 右 剖 的 处 理 一 样 ，Erlang 特别 适合 于 对 大 量 的 请 求 进行 非 同 步 
处 理 的 任务 。Erlang 在 20 世纪 80 年 代 束 已 经 道生 ， 但 直到 最 这 才 变 
Ss 目 ， 这 可 能 是 因为 最 近 发 现 了 它 适 合 于 现代 服务 硕 端 程序 这 
= 


10.4.8 ”面向 Ruby 的 库 “Revactor” 


进行 Actor Model 编程 ， 如 果 采 用 Erlang 这 样 独特 的 语言 ， 就 有 点 太 
为 难 了 。 因 为 学 习 新 的 语言 ， 再 移植 ， 是 要 花费 成 本 的 。 对 于 习惯 了 
Ruby 的 人 来 说 ， 如 有 果 能 够 用 平时 习惯 的 Ruby 来 进行 Actor Model 编 
程 ， 实 在 是 谢 天 谢 地 。 


能 够 满足 这 种 需求 的 是 面 癌 Ruby 的 Actor 库 Revactor。Revactor 的 目 
的 是 为 Ruby 提供 Erlang 式 的 编程 。 使 用 Revactor 的 pingpong 程序 
如 图 10-36 所 示 。 


require 'revactor' 


def pingpong(name) 
loop do 
Actor.receive do |filter| 
filter.when(Case[Actor, Integer]) do |partner, count| 

if count == 0 
puts "#{name}:done" 
exit 

else 
if count % 500 < 2 

puts "#{name}: pingpong #{count}" 

end 
partner << [Actor.current, count-1] 

end 


OOOOORRODP 


Actor .spawn {pingpong("ping")} 
= Actor.spawn {pingpong("pong")} 
<< [ping, ARGV[0].to_i] 

24 Actor.reschedule 


图 10-36 ”使 用 Revactor 的 pingpong 程序 
将 图 10-36 与 图 10-33 中 的 Erlang 程序 相 比 ， 可 以 看 出 二 者 构造 几乎 
相同 。Ruby 中 不 具备 的 receive 语句 和 模式 匹配 ， 我 们 使 用 代码 块 
或 filter 来 实现 。 我 认为 结构 上 是 仿造 Erlang。 如 果 说 区 别 ， 应 该 
是 以 下 这 些 吧 。 

。 送信 不 用 !， 而 是 用 << 运 算 符 。 

。 Spawn 写成 代码 块 。 


。receive 语句 换 成 Actor .receive 方法 。 


。 (Erlang 中 的 ) 模式 匹配 ， 在 Revactor 中 使 用 filter 和 Case 
(Case 是 模式 匹配 的 库 ) 。 


。 不 用 末尾 递归 ， 而 是 用 循环 。 


第 24 行 的 发 送 消息 后 ， 调 用 Actor ,reschedule 方法 ， 明 确 地 将 
控制 传 给 其 他 Actor。 本 来 觉得 不 应 该 有 这 一 行 ， 但 我 手头 的 程序 ， 如 
果 没 有 这 一 行 ， 就 不 能 正常 运行 。 


这 里 虽 没 有 详细 说 明 ， 在 Revactor 中 ， 与 Erlang 一 样 ， 错 误 处 理 也 是 
以 发 送 消 息 的 方式 来 实现 的 。 使 用 spawn_link 代 苦 (Erlang 中 的 ) 
spawn 来 生成 Actor 之 后 ，Actor 的 异常 终止 等 通过 发 送 消 息 传递 给 
连接 的 Actor 。 


Revactor 是 利用 Ruby 1.9 中 提供 的 Fiber 实现 的 。Fiber 是 在 明确 进行 
上 下 文 切换 时 的 用 户 级 线程 ， 有 时 也 被 称 为 协 程 (co-routine) 。 所 
以 ，Revactor 只 有 在 Ruby 1.9 上 才能 运行 。 从 个 人 角度 来 讲 ， 我 期 待 
着 ， 像 Revactor 那样 利用 Fiber 实现 的 输入 输出 多 重 化 技术 将 成 为 
Ruby 1.9 的 杀手 级 应 用 。 


有 天 Revactor 的 信息 ， 请 参照 http://revactor.org/ 。Revactor 由 
RubyGems 提供 ， 用 下 述 命 令 安 装 。 


gem install revactor 


但 是 ， 正 如 刚才 所 述 ，Revactor 只 能 在 Ruby 1.9 中 运行 ，gem 命令 也 
需要 在 1.9 版 中 执行 。 我 手头 上 的 1.9 版 gem 命令 是 以 gem 1.9 的 名 字 
安装 的 。 


10.4.9 ”Revactor 的 应 用 场合 


Revactor 在 Ruby 中 可 以 像 Erlang 一 样 编程 ， 其 优点 是 可 以 同时 体验 
Ruby 的 好 处 及 Erlang 的 好 处 。 但 是 ，Revactor 中 Actor 的 实现 不 是 靠 
线程 ， 而 是 靠 Fiber。Erlang 的 目的 在 于 最 大 限度 地 利用 多 核 CPU， 而 
Revactor 并 不 适合 于 这 种 目的 。 


那么 ， 说 到 Revactor 的 最 大 优点 ， 应 该 是 能 够 在 等 竺 文件 输入 输出 
时 ， 将 程序 的 停止 控制 在 最 小 程度 。 10-37 是 使 用 Revactor 进行 文 
件 输入 输出 的 Echo Server。Echo Server 从 客户 端 接收 socket 连接 请 
求 ， 然 后 将 客户 端 传 过 来 的 东西 原封 不 动 地 返回 。 因 为 是 原封 不 动 ， 
所 以 称 为 Echo (回声 ) 。 


1 require 'revactor' 


HOST "Localhost 
PORT 4321 


# 用 指定 的 服务 器 和 端口 生成 新 的 接听 socket 
listener = Revactor::TCP.1listen(HOST, PORT) 
puts "Listening on # {HOST}:#{PORT}" 


2 
3 
4 
5 
6 
7 
8 


19 # 开始 接受 连接 请 求 

11 loop do 

# 接受 连接 请 求 并 开始 新 的 Actor 

# 来 处 理 
Actor.spawn(listener.accept) do |sock| 

puts "#{Ssock.remote addr}:#{sock.remove_port} connected" 


# 开始 回应 收 到 的 日 期 
loop do 
begin 
# 把 读 取 的 内 容 照 原样 输出 
sock.write sock.read 
rescue EOFError 
puts "#{Sock.remote addr}:#{sock.remote_port} 


# 像 普 通 的 Ruby 的 socket 一 样 ， 在 关闭 连接 时 中 断 
# {并 退出 现在 的 actor} 
break 

end 


图 10-37 使 用 Revactor 的 Echo Server 


这 个 Echo Server 有 两 个 重要 特点 。 第 一 ,与 通常 的 socket 与 线程 相 
组 合 的 服务 絮 相 比 ， 性 能 更 好 。 特 别 是 在 同时 连接 数 增加 时 ， 内 存 消 


耗 量 和 应 答 性 能 优 展 。 这 是 因为 与 线程 相 比 ，Actor 的 内 存 消耗 量 和 上 

下 文 切换 的 成 本 较 低 。 

第 二 ， 尽 管 性 能 这 么 优良 ， 将 程序 改造 为 Revactor 式 ， 只 需要 很 少量 

的 修改 。 实 际 上 ， 与 通常 使 用 socket 和 线程 的 Echo Server 相 比 ， 
(Revactor 式 的 Echo Server) 不 同 点 仅 在 于 : 


。require 的 库 是 revactor ， 而 不 是 socket ; 


。 连 接 用 的 socket class 是 Revactor::TCP ， 而 不 是 
TCPServer : 


。 个别 连接 处 理 用 Actor .spawn ， 而 不 是 Thread ,new 。 


Ruby 中 的 HTTP 服务 器 Mongrel， 可 以 用 通常 的 线程 实现 ， 也 可 以 用 
Revactor Actor 实现 。 用 benchmark 对 二 者 进行 比较 ， 不 管 是 并 行程 度 
还 是 处 理性 能 ，Actor 都 要 好 。 而 且 ， (线程 式 ) Mongrel 服务 器 变 为 
Revactor 式 ， 只 需要 几 行 的 变更 陇 能 实现 。 详 细 请 参照 Revactor 参考 
书 o 


10.4.10 “ 另 一 个 库 Dramatis 


Dramatis 是 Ruby 中 另 一 个 Actor 库 。 琅 数 型 语言 Erlang 不 文 持 面向 对 
象 功 能 。 但 是 ， 某 种 程度 上 习惯 了 Erlang 编程 之 后 ， 以 process 代替 
对 象 ， 以 发 送 消息 代替 方法 调用 ， 可 以 编 出 类 似 面 问 对象 的 程序 。 


另 一 方面 ， 用 Ruby 这 样 的 面向 对 象 语言 来 实现 Actor 的 时 候 ， 即 使 用 
普通 对 象 来 实现 Actor， 也 不 可 避免 地 会 出 现 把 方法 调用 和 发 送 消息 这 
两 种 革 似 概念 浊 在 一 起 的 情况 * Dramats 库 的 目标 ， 就 是 要 解答 这 


require 'dramatis/actor' 


1 

2 

3 class PingPong 

4 include Dramatis::Actor 
5 def initialize name 

6 Qname = name 

7 end 

8 

9 


def pingpong count, partner 


10 if count == 0 

11 puts "#{@name}: done" 

12 else 

13 If count % 500 == 0 || count % 500 == 1 
14 puts "#{@name}: pingpong #{count}" 
15 end 

16 release(partner).pingpong count-1, self 
17 en 

18 end 

19 end 

20 


21 ping = PingPong.new("ping") 
22 pong = PingPong.new("pong") 


24 ping.pingpong ARGV[0].to i, pong 


图 10-38 ”使 用 Dramatis 的 pingpong 程序 


Dramatis 中 ，Actor 也 是 以 对 象 方式 来 表现 的 。 为 了 让 对 象 称 为 
Actor， 需 要 像 图 10-38 中 程序 的 第 4 行 那样 ， 装 上 

Drmatics: :Actor .new 模块 。 已 经 存在 的 对 象 要 变 成 Actor 的 话 ， 
就 像 下 面 这 样 : 


Dramatics::Actor.new (obj ) 


返回 一 个 将 obj 指定 的 对 象 包 起 来 的 Actor。Dramatis 中 ， 方 法 调用 
和 发 送 消息 没有 区 别 。 第 24 行 的 PingPong 对 象 调 用 pingpong 方 
法 ， 这 是 通常 的 方法 调用 ， 执 行 完成 之 后 ， 等 待 返回 结果 ， 称 为 同步 
调用 。 但 是 ， 同 步调 用 不 能 实现 Actor 的 发 送 消 息 。 要 实现 异步 调用 
的 话 ， 需 要 使 用 release 方法 。 


使 用 release 方法 ， 可 以 得 到 异步 调用 的 特别 对 象 。 使 用 这 个 对 象 
的 方法 调用 是 异步 执行 的 。 因 为 是 异步 调用 ， 返 回 结 末 之 前 吏 继 续 执 
行 下 面 的 程序 ， 方 法 的 返回 值 被 扔 掉 。 


除了 release ，Dramatis 还 另外 提供 等 候 结果 的 future 方法 。 用 
release 调用 方法 时 ， 完 全 无 视 异 步 执 行 的 结果 ,但 用 future 可 
以 在 执行 之 后 得 到 返回 结果 。 想 使 用 future 得 到 执行 结果 时 ， 在 方 


法 执行 完成 之 前 ， 程 序 处 于 阻塞 (block) 状态 ， 等 待 方法 执行 的 完 
成 。 这 十 一 种 看 起 来 像 通常 执行 一 样 而 实现 了 并 行 化 的 技巧 。 


将 Dramatis 和 Erlang 或 Revactor 等 别 的 Actor 处 理 系统 比较 一 下 ， 发 
现 一 个 明显 的 特征 是 ， 方 法 调用 和 发 送 消 居 融合 得 非 第 好 。 与 其 他 
Actor 处 理 系统 相 比 ，Actor 是 对 应 于 线程 ， 实 现 并 行 处 理 的 主体 这 一 
感 沉 虽然 变 痰 了 ， 但 感觉 到 普通 对 象 也 能 够 作为 Actor 来 运行 ， 真 的 
让 人 感觉 很 畅快 。 


Dramatis 不 是 使 用 Fiber， 而 是 使 用 Ruby 的 线程 实现 的 ， 所 以 在 Ruby 
1.8 中 也 能 运行 (Dramatis 也 有 Python 版 ) 。 但 是 ， 至 少 在 写本 书 时 
在 我 尝试 使 用 的 范围 内 ， 性 能 仍 比 不 上 Revactor (而 Revactor 比 不 上 
Erlang) 。 虽 然 如 此 ， 作 为 Actor 的 一 种 实现 ，Dramatis 仍然 是 一 种 很 
有 意思 的 尝试 ， 我 对 其 前 景 充满 期 得 。 


* * * 


以 上 介绍 了 3 种 支持 Actor Model 的 编程 技术 Erlang、Revactor 和 
Dramatis。 使 用 独立 语言 实现 Actor 的 Erlang， 用 Ruby 提供 的 Erlang 
的 功能 ， 试 图 取 二 者 之 长 的 Revactor， 将 Actor 与 对 象 融合 而 开辟 
Actor Model 新 领域 (感觉 是 这 样 ) 的 Dramatis。 各 自 思想 的 不 同 ， 实 
现 特征 也 不 同 ， 这 些 都 磊 有 意思 。 


我 想 今后 的 服务 器 端 编程 ， 能 够 处 理 大量 请 求 的 Actor Model 会 受 人 
瞩目 。 说 老实 话 ，Ruby 版 的 Actor 库 的 进展 和 性 能 都 还 差 得 很 远 ， 想 
想 将 来 ， 这 一 条 肯定 古 会 成 为 受 人 瞩目 的 技术 。 今 后 我 也 会 注意 该 处 
理 系统 的 动 同 。 


两 个 法 则 


一 个 是 帕 累 托 法 则 。 这 一 法 则 本 来 是 经 济 学 中 表示 全 体 数 值 的 大 部 
分 ， 是 由 构成 全 体 的 少 部 分 因素 所 产生 的 ， 现 在 被 广泛 应 用 到 各 种 
各 样 的 领域 。 帕 累 托 法 则 通常 以 *80:20 法 则 ”(80% 的 数值 由 20% 的 
因素 产生 ) 这 种 变形 形式 来 应 用 。 


性 能 优化 也 适用 这 一 法 则 。 也 即 程序 执行 时 间 的 80% (或 者 更 
多 ) ， 都 花费 在 20% 的 代码 上 。 反 过 来 说 ， 不 属于 这 20% 的 部 分 ， 
不 管 坚 么 优化 ， 都 不 能 给 最 终结 采 市 来 多 大 页 献 。 


性 能 优化 是 一 个 花费 成 本 的 工作 ， 必 须 在 所 投入 的 成 本 和 得 到 的 结 
果 之 则 做 出 平衡 。 


在 决定 投入 成 本 (与 性 能 ， 的 平衡 时 ， 帕 累 托 法 则 是 个 很 有 用 的 法 
则 。 主 要 的 意思 是 ， 在 确切 测定 之 后 ， 再 制定 改善 计划 。 


刃 一 个 是 摩尔 法 则 ， 即 大 规模 集成 电路 (LSI) 中 的 品 体 管 数 每 18 
个 月 翻 一 番 。 这 个 经 验 法 则 是 英特尔 公司 前 总 裁 戈 登 . 摩尔 于 1965 
年 发 表 的 论文 中 介绍 的 。 


大 规模 集成 电路 的 集成 度 大 体 上 与 CPU 的 性 能 及 内 存 容量 直接 相 
天 ，40 多 年 来 ， 计 算 机 的 性 能 几乎 呈 指 数 增 长 ， 这 真是 让 人 难以 置 
信 。 半 个 世纪 以 来 ， 计 算 机 的 进步 与 发 展 大 体 上 遵守 摩尔 法 则 ， 这 
样 说 并 不 雁 张 。 


但 是 ， 摩 尔 法 则 也 开始 被 阴影 所 答 草 ， 因 为 快要 接近 物理 法 则 的 极 
限 了 。40 多 年 来 ， 随 厦大 规模 集成 电路 集成 度 的 提高 ， 日 第 生活 中 
意识 不 到 的 光 的 速度 、 原 子 大 小 等 已 经 成 为 问题 了 。 最 近 儿 年 ， 有 
0 0 0 3 
o 


到 现在 为 止 ， 受 惠 于 摩尔 法 则 ，CPU 的 处 理 速 度 大 幅 变 快 ， 软 件 也 
因此 而 大 大 加 速 。 软 件 开 发 人 员 什么 都 不 用 做 ， 只 要 换个 计算 机 ， 
就 自动 实现 了 提速 。 


但 是 ， 幸 福 的 时 代 就 要 结束 了 。 单 个 CPU 的 提速 已 经 接近 极限 。 而 
往 一 个 芯片 内 杠 入 多 个 CPU 的 多 CPU 或 者 多 核 将 成 为 以 后 的 发 展 
方向 。 今 后 ， 只 有 能 够 灵活 利用 多 个 CPU 进行 任务 分 割 的 软件 ， 才 
能 至 受 摩尔 法 则 的 恩惠 ， 从 而 变 得 更 加 高 速 。 


在 未 来 高 速 软件 的 开发 中 ， 对 这 两 个 法 则 的 认识 会 越 来 越 重要 吧 。 


第 11 章 程序 安全 性 


11.1 程序 的 漏洞 与 攻击 方法 


先 说 明 一 下 什么 是 软件 的 漏洞 吧 。 其 英文 是 vulnerability， 经 常 使 用 片 
假名 的 开行 业 之 所 以 也 用 汉字 来 表示 它 ， 是 因为 这 个 词 的 片 假名 表示 
发 首 难 ， 且 难以 记忆 。 

所 谓 漏 洞 ， 是 指 让 软件 发 生意 外 动作 的 可 能 性 。 软 件 的 漏洞 ， 根 据 严 
重 程度 和 紧急 程度 的 不 同 ， 可 以 分 为 多 种 。 

其 中 ， 紧 急 程 度 低 的 ， 仅 仅 看 做 程序 错误 来 处 理 就行 了 。 但 是 紧急 程 


度 高 的 ， 必 须 作为 最 优先 问题 来 解决 。 一 听 说 出 了 安全 性 程序 错误 ， 
有 人 束 容 易 紧 张 得 不 行 ， 事 实 上 机 分 清 严 重 程度 ， 冷 静 应 对 。 


11.1.1 4 种 软件 漏洞 
漏洞 从 大 的 方面 分 为 以 下 4 种 。 

1. DoS 攻击 

2. 信息 泄漏 

3. 权限 夺取 

4. 权限 升格 
首先 ， 第 1 种 是 DoS (Denial of Service) 攻击 ， 也 称 拒 绝 服务 攻击 ， 
是 指 妨 碍 软件 正常 运行 (服务 的 执行 的 网 络 攻击 手段 。 能 够 引起 软 
件 异 党 终止 的 程序 错误 ， 可 以 说 全 部 都 是 引发 DoS 攻击 的 安全 性 程序 
首 误 。 
即使 发 生 了 异常 终止 ， 很 多 软件 也 都 不 会 引起 严重 问题 。 比 如 说 ， 读 
入 损坏 的 数据 ， 即 使 引起 编辑 器 软件 异常 终止 ， 也 不 会 给 别人 珊 来 碳 
烦 。 但 是 ， 对 于 有 些 软 件 ， 可 能 后 果 会 很 严重 。 如 果 读 入 内 容 有 问题 
的 邮件 ， 而 导致 邮件 系统 整体 崩溃 ， 那 问题 可 就 严重 了 。 
但 软件 即使 没有 漏洞 ， 也 可 能 从 外 部 受到 DoS 攻击 。 以 前 ， 我 所 在 的 


公司 管理 的 服务 器 ， 突 然 有 一 天 不 啊 应 请 求 了 。 调 查 后 才 知 道 ， 从 茶 
国 集中 了 大 量 的 Web 访问 ， 导 致 流量 太 大 ， 处 理 不 及 。 从 众多 Web 


浏览 器 同时 、 反 复 进 行 重新 载 入 (reload) 这 种 单纯 攻击 (Internet 
Explorer 的 重新 载 入 键 是 F5， 所 以 也 称 为 F5 攻击 ) ， 使 服务 器 负荷 
变 得 过 重 。 结 果 ， 只 要 将 有 问题 的 IP 地 址 进行 过 滤 ， 并 增强 服务 器 功 
能 ， 问 题 束 可 以 解决 了 。 这 种 攻击 想 从 根本 上 解决 是 很 困难 的 。 


第 2 种 信息 泄漏 ， 古 指 不 愿 公开 的 信息 被 公开 了 。 比 如 用 户 名 被 公 
开 ， 或 者 密码 被 看 到 等 问题 。 


言 息 油 漏 相对 来 说 是 一 个 重大 问题 ， 但 根据 泄漏 信息 的 种 类 ， 其 严重 
程度 也 是 不 一 样 的 。 特 别 是 有 关 人 金钱 或 者 个 人 信息 被 泄漏 的 时 候 ， 处 
理 不 慎 的 话 ， 可 能 会 发 展 成 诉讼 官司 。 以 前 也 曾 有 过 这 种 案例 ， 有 人 
因 该 问 了 不 经 意 泄漏 的 个 人 信息 而 中 到 地 诉 ， 说 是 违反 了 《不 正当 访 
问 禁止 法 》。 


11.1.2” 因 权限 被 窃取 而 成 为 重大 问题 


第 3 种 权限 和 夺取， 是 指 和 二 取 软件 控制 权 ， 随 心 所 欲 地 操纵 计算 机 。 如 
有 果 权 限 被 于 取 了 ， 计 算 机 区 成 为 入 侵 者 为 所 欲 为 的 工具 了 “。 也 怠 是 
说 ， 只 要 是 在 该 软件 所 具有 的 权限 范围 以 内 ， 比 如 文件 的 写 入 、 删 
除 ， 等 等 ， 什 么 操作 都 有 可 能 发 生 。 如 果 是 恶意 的 入 侵 痢 ， 残 有 可 能 
破坏 整个 系统 。 
但 是 ， 软 件 如 果 只 是 用 一 般 用 户 的 权限 来 执行 ， 则 能 够 避免 最 恶性 的 
伤害 。 一 般 用 户 所 能 够 做 的 操作 有 限 。 虽 说 如 此 ， 但 或 许 会 有 人 允许 第 
4 种 权限 升格 这 样 的 漏洞， 所 以 不 能 过 于 乐观 。 所 请 权限 升格 ， 是 指 
夺取 了 一 般 用 户 权限 的 入 侵 者 ， 获 取 了 管理 者 权限 。 
以 前 ，Ruby 的 主页 网 站 www.ruby-lang.org 受到 过 入 侵 ， 当 时 是 ssh 的 
了 。 虽 然 摘 不 懂 夺 取 管 理 者 权限 的 入 侵 痢 在 想 些 什么 ， 但 
行 


1 ssh 是 Secure Shell 的 缩写 ， 是 在 远程 操作 计算 机 时 ， 通 过 加 密 通 信和 而 执行 的 程序 。 


导致 将 所 有 文件 递归 删除 的 恶果 ( 即 各 级 目录 中 的 文件 都 被 删除 ) 。 
和 司 贡 定 个 犯 排 糙 十 的 3 


结 采 ， 操 作 系 统 的 运行 所 必需 的 文件 被 删除 后 ， 如 归 删 除 殊 停止 了 ， 
但 有 几 个 文件 却 永 远 失 去 了 。 举 亏 ， 我 的 重要 文件 都 留 有 备份 ， 但 因 
为 没 能 确定 最 初 入 侵 时 间 ， 为 了 验证 备份 的 文件 是 否 被 恶意 改变 ， 还 
征 伦 了 相当 长 的 时 间 。 现 在 回头 看 ， 这 仍然 是 很 痛心 的 回忆 。 

但 是 ， 删 除 所 有 文件 这 种 单纯 的 徘 行 还 算 好 的 。 最 近 有 的 入 侵 者 为 了 
不 让 人 察觉 到 ， 目 己 将 入 侵 的 痕迹 抹 去 ， 委 么 偷偷 潜伏 下 来 盗 取 重 要 
言 上 号 ， 要 么 将 入 侵 的 计算 机 用 作 犯 罪 .真是 越 来 越 恶 劣 了 。 


11.1.3 ”安全 问题 的 根源 
这 样 的 安全 问题 之 所 以 会 产生 ， 而 且 还 在 不 断 出 现 ， 也 是 有 原因 的 。 
安全 问题 产生 的 根源 ， 在 于 运行 软件 的 人 《权限 所 有 者 ) 和 利用 软件 
的 人 是 不 同 的 。 早 期 的 软件 ， 利 用 考 和 软件 执行 权限 是 一 致 的 ， 这 种 
时 候 不 会 发生 问题 。 即 便 软 件 有 程序 错误 ， 程 序 错误 的 受害 人 也 仅 限 
于 本 人 ， 说 到 展 还 是 自己 负责 。 
安全 问题 有 3 种 情况 。 

1. 恶意 软件 

2. etuid/setgid 

3. 服务 如 
第 1 种 恶意 软件 ， 是 指 在 程序 本 吴 里 面 植 入 了 某 种 有 恶意 的 代码 。 几 
乎 所 有 情况 下 ， 软 件 的 开发 人 员 和 使 用 者 是 不 同 的 ， 这 样 怀疑 起 来 ， 
范围 可 束 大 了 。 其 中 ， 有 被 称 为 “特洛伊 木马 ”的 下 了 套 的 软件 。 所 
以 ， 通 过 邮件 发 送 来 的 不 明 束 里 的 程序 ， 一 般 都 不 要 执行 。 


第 2 种 setuid (set userid) ， 是 指 执行 的 程序 以 所 有 者 权限 进行 动 
作 。setgid (set group id) 也 用 同样 的 方法 来 设 定 组 权限 。 


比如 ， 想 共 训 游 戏 软件 的 高 分 记录 文件 ， 但 又 想 避 免 高 分 记录 文件 被 
随便 更 改 。 首 先 把 更 改 高 分 记录 的 程序 的 所 有 者 与 高 分 记 有 杂文 件 的 所 
有 者 设 定 成 一 样 ， 然 后 只 要 设 定 程序 的 setuid， 该 程序 就 能 以 高 分 记 
9 者 权限 来 执行 。 这 是 UNIX 系列 操作 系统 一 直 以 来 的 做 
潜 。 


这 种 做 法 的 好 处 是 ， 一 方面 根据 权限 对 文件 进行 保护 ， 另 一 方面 根据 
需要 可 以 将 保护 撤销 。 但 利用 软件 的 人 会 有 不 同 的 执行 权限 ， 容 易 成 
为 权限 升格 的 台阶 。 实 际 上 ，setuid 的 缺点 已 经 变 得 比 优点 更 突出 ， 
现在 几乎 不 用 了 。 


11.1.4 “守护 神 * 引 起 的 问题 


第 3 种 是 服务 器 ， 这 个 词 本 身 有 很 多 意思 ， 这 里 是 指 为 了 提供 服务 而 
常 驻 型 的 软件 。UNIX 中 ， 为 了 将 这 种 软件 和 服务 器 硬件 本 身 
(server) 区 别 开 来 ， 称 之 为 后 台 服 务 (daemon) 。daemon 并 不 是 亚 
魔 (demon) ， 而 是 鬼神 或 守护 神 的 意思 。 


在 Linux 等 UNIX 系列 操作 系统 中 ， 处 理 邮 件 的 mailer daemon， 调 整 
时 刻 的 ntp daemon 等 ， 有 着 为 数 众多 的 后 台 服 务 在 运行 。 阿 帕 奇 

(Apache) 的 HTTP server 也 是 一 种 后 台 服 务 。 现 在 数 一 数 ， 我 的 
Debian (GNU/Linux) 机 器 中 ， 有 近 100 种 后 台 服 务 在 运行 。 


这 些 后 台 服 务 ， 基 本 上 都 是 受理 经 由 socket 而 来 的 请 求 。 执 行 它 所 提 
供 的 服务 ， 然 后 将 结果 经 由 socket 返回 。 也 就 是 说 ， 几 乎 所 有 的 情 
况 ， 利 用 者 (发 出 请 求 者 ) 和 执行 者 (daemon 的 执行 权限 者 ) 都 是 不 
同 的 。 这 种 软件 辱 有 了 漏洞 ， 会 引起 DOS 问题 和 权限 村 取 问 题 等 。 


2 socket 是 UNIX 系列 操作 系统 中 ， 进 程 间 通信 的 一 种 机 制 。 


用 户 彼此 之 间 都 互相 认识 ， 谁 都 不 会 有 恶意 的 时 代 ， 早 束 过 去 了 。 现 
在 ， 世 界 上 充满 了 恶作剧 者 和 追求 一 己 之 利 的 不 法 之 徒 。 当 然 从 整体 
上 看 ， 这 些 行为 不 端 者 只 是 少数 ， 但 绝 不 能 无 视 。 管 理 者 不 妨 设想 ， 
给 后 全 服务 的 所 有 和 输入， 都 是 来 目 恶意 用 户 。 


现在 的 软件 ， 很 多 都 古 通过 互联 网 来 提供 。 通 过 互联 网 提供 的 服务 ， 
基本 上 与 通过 后 合 服务 提 供 的 服务 相同 ， 同 样 有 必要 设想 并 不 古 所 有 
的 输入 都 能 够 信任 。 


正 古 通过 互联 网 提供 的 软件 ， 使 得 安全 问题 最 近 成 为 热 议 的 课题 。 因 
为 互联 网 上 的 软件 能 够 简单 地 提供 服务 ， 门 德 很 低 ， 利 用 者 与 执行 权 
限 者 不 同 ， 从 而 很 容易 引起 安全 问题 。 

11.1.5 多样 化 的 攻击 手段 


对 软件 漏洞 的 攻击 有 很 多 种 。 对 软件 开发 者 的 程序 错误 (或 者 玖 忽 ) 
的 攻击 ， 有 代表 性 的 有 以 下 5 种 。 


。 绥 冲 区 溢出 

。 整数 溢出 

。 跨 站 点 脚本 攻击 (XSS) 

。SQL 注入 

。 跨 站 点 伪造 请 求 (CSRF) 
并 不 是 说 这 些 就 是 全 部 ， 我 想 今 后 攻击 的 种 类 还 会 增加 。 以 下 简略 说 
明 这 些 安全 攻击 的 内 容 和 应 对 方法 。 
11.1.6” 缓 神 区 海 出 
缓冲 区 洪 出 是 经 常 被 提起 的 攻击 事件 。 这 是 指向 固定 长 的 缓冲 区 

(buffer) 3 输入 了 比 假定 的 长 度 要 长 很 多 的 数据 ， 使 程序 异常 终止 。 

或 者 是 更 改 堆 栈 的 跳 转 地 址 ， 动 持 程 序 。 
3 为 保存 数据 而 确保 的 内 存 区 域 。 


芒 


看 看 图 11-1 中 的 程序 。 这 个 C 程序 中 使 用 gets 函数 ， 从 标准 输入 读 
入 一 行 ， 存 入 缓冲 区 (作为 参数 传 过 来 的 数组 ) 。 


void 
danger () 


char buf [1024]; 
while (gets{({buf) != NULL) 
{ 

printf("%s", buf); 


> 


图 11-1 有 组 


这 个 程序 有 一 个 假定 ， 那 束 是 “1 行 的 长 度 肯定 小 于 1024 字 用 ”。 确 
实 ， 儿 乎 所 有 的 情况 下 ， 这 个 假定 都 是 成 立 的 。 但 并 不 保证 对 所 有 的 
情况 都 成 立 。 当 输入 者 不 被 信任 的 时 候 ， 这 个 假定 就 会 出 卖 你 。 当 这 
个 程序 读 入 的 输入 行 长 度 达 到 1024 字 节 以 上 时 ， 就 会 写 入 数组 buf 
末端 之 后 的 内 存 ( 游 出 ) ,程序 因 而 异常 终止 。 


如 膝 仪 仅 是 异常 终止 ， 问 题 还 不 大 。 最 坏 的 情况 是 程序 的 控制 权 被 村 
走 。 之 所 以 这 么 说 ， 是 因为 C 语言 中 ， 局 部 变量 是 放 在 系统 堆栈 上 
， ， 往 系统 堆栈 上 以 某 种 特定 规格 写 入 ， 束 有 可 能 更 改 轴 数 的 返回 地 


为 了 避免 被 坏人 利用 ， 这 里 束 不 详细 说 明了 。 曾 经 流行 过 一 种 蠕虫 ， 
通过 将 能 够 从 外 部 进行 操作 的 代码 写 入 缓冲 区 ， 使 CPU 误 认 为 已 经 从 
玉 数 返回 ， 在 返回 地 址 处 启动 shell 。 


像 这 里 介绍 的 gets 一 样 ，C 的 库 函 数 由 于 历史 原因 ， 虽 然 接 受 数 
组 ， 但 残留 下 一 些 并 不 进行 长 度 检 查 的 函数 (假定 数组 有 足够 长 度 来 
容纳 数据 ) 。 除 了 gets 之 外 ， 还 有 sprintf ，getwd 等 。 现 在 的 
连接 器 (linker， 将 几 个 程序 连 起 来 的 软件 ) 很 聪明 ， 在 编译 带 有 
gets 、getwd 这 种 有 明显 缺点 的 函数 的 程序 时 ， 能 发 出 警告 。 这 些 
的 “更 好 的 替代 函数 ”， 推 荐 使 用 这 些 替代 函数 

人 参 沁 和 圾 11-1 


区 溢出 危险 的 程序 


表 11-1 危险 的 C 画 数 和 替代 函数 


EE 


strcpy strncpy 字符 串 复制 
IE 
人 


本 来 ， 使 用 C 那 种 连 数 组 长 度 都 不 检查 的 语言 ， 可 以 说 就 肯定 会 产生 
问题 。 注 亏 ， 像 Ruby 这 样 的 高 级 语言 ， 语 言 处 理 系 统 目 动 分 配 内 
存 ， 可 以 不 使 用 固定 长 的 缓冲 区 。 使 用 更 高 级 的 语言 ， 可 以 从 缓冲 区 
溢出 问题 中 解放 出 来 。 但 由 于 速度 上 的 考虑 ， 不 少 人 还 会 开发 C 语言 
的 CGI 及 Daemon 程序 等 ， 使 用 时 要 多 加 注意 。 

4 Common Gateway Interface (公共 网 关 接 口 ) 的 缩写 ， 在 web 服务 器 上 执行 程序 的 接口 。 用 
这 个 接口 执行 的 程序 ， 称 为 CGI 程序 。 


11.1.7 ”整数 溢出 
整数 淤 出 与 缓冲 区 次 出 相似 ， 但 它 是 更 难 被 发 现 的 问题 。 


请 看 图 11-2 的 C 程 序 。 这 里 所 示 的 函数 ， 用 malloc 男 数 分 配 了 一 
个 大 小 为 指定 结构 体 ? n 倍 的 内 存 空间 。 


5 把 程序 中 使 用 的 数据 集中 定义 在 一 起 的 结构 。 


void* 
malloc elements (size t esize, size 七 n) 
{ 

return malloc (esize * n); 因 舍 入 而 
} 变 小 了 


图 11-2 有 整数 溢出 问题 的 C 程序 

这 看 起 来 古 很 简单 的 一 个 函数 ， 好 像 没 有 任何 问题 ， 但 实际 上 却 隐藏 

着 一 个 很 及 烦 的 问题 。 

C 等 很 多 的 语言 ， 整 数 只 能 表示 一 定 范围 内 的 数 。 比 如 ， 无 符号 32 位 
(二 进 制 ) 整数 能 表示 的 范围 是 0 到 42 亿 。 超 过 此 范围 ， 束 会 发 生 深 

出 ， 也 不 发 警告 殉 将 数值 伟人 。 


那么 ， 再 看 一 遍 图 11-2 中 的 函数 ，n 虽然 在 size_t 的 范围 之 内 ,但 
当 esize * n 超 越 了 size_t 的 范围 时 ， 就 会 发 生 问 题 。 


假设 size_t 是 32 位 无 符号 整数 ，esize 是 32。 这 里 假设 给 了 mn 一 
个 值 ，134500000 。 


esize = 32 
n = 134500000 


esize * n = 4304000000 (本 来 的 值 ) 


这 个 结 采 超越 了 32 位 整数 的 范围 ， 超 出 的 位 被 无 视 。C 语言 的 计算 结 
果 束 成 为 


esize * n = 9032704 (32 位 舍 入 ) 


9032704 字 节 ， 也 就 是 9MB， 对 于 现在 的 计算 机 来 说 ， 并 不 算 大 。 这 
里 上 毫 无 疑问 ，malloc 会 分 配 一 个 9MB 的 内 存 空间 ， 并 将 其 返回 。 


应 用 程序 那 边 本 打算 分 配 一 个 大 得 多 的 内 存 空间 ， 结 采 只 分 配 了 
9MB。 这 样 造成 的 结果 束 是 ， 写 入 的 数据 超越 了 所 分 配 的 空间 ， 最 终 
会 导致 程序 异常 终止 ， 发 生 不 测 。 


malloc 不 分 配 堆栈 空间 ， 难 以 发 生前 面 所 述 的 因 缓 冲 区 海 出 而 导致 
的 权限 夺取 问题 ， 但 不 敢 断 定 说 ， 绝 对 不 会 被 亚 用 。 


想 要 避免 整数 淆 出， 好 像 很 矿 烦 。 像 图 11-3 所 示 的 那样 ， 需 要 注意 检 
查 计算 结果 是 否 在 整数 施 围 内 。 


void* 
malloc_elements (size_t esize, size_t n) 
{ 
Size tt len = esize * n; 
TE (mI 0 Re ealzen Ten 
return NULL; 
} 


return malloc (esize * n);|..- 


图 11-3 ”人 带 整数 溢出 检查 的 C 程序 


顺便 说 一 下 ，malloc 函数 由 于 某 种 原因 ， 分 配 内 存 失败 的 话 ， 束 返 
回 NULL 。 但 很 多 程序 都 假定 malloc 不 失败 ， 肯 定 返 回 所 分 配 的 内 
存 。 这 一 扩 需 要 注意 。 

这 个 问题 通过 使 用 Ruby 这 样 的 高 级 语言 可 以 解决 。Ruby 的 整数 计 
算 ， 没 有 32 位 海 出 这 一 限制 "。 另 外 ， 内 存 分 配 不 是 由 用 户 直接 进 
融 不 折 边 。 


6 严格 来 说 ， 整 数 洲 出 发 生 以 后 ， 自 动 切 换 到 多 售 长 整数 去 计算 。 


11.1.8” SQL 注入 

SQL 注入 是 对 外 部 的 输入 检查 不 充分 时 所 产生 的 典型 问题 。 

利用 关系 数据 库 的 程序 ， 使 用 SQL 与 数据 库 进行 交 互 。 这 时 ， 如 果 稀 
里 糊涂 地 将 外 部 输入 原封 不 动 地 写 入 SQL 语句 里 ， 这 样 做 成 的 程序 有 
可 能 允许 对 数据 库 进 行 预想 外 的 操作 。 


这 里 介绍 一 下 漫画 网 站 XKCD 里 的 一 个 SQL 注入 的 漫画 (参见 图 11- 
4) ， 对 白 翻 译 成 如 下 。 


A WEBCOMIC OF ROMANCE, 
SARCASM, MATH, AND LANGUAGE. 
DA 


<PRev TamoouJ ror> oe 
PERMANENT LN TO THIS COUD HTTP-// XNCO. 327 
URL (FOR HDTLAWOWCAEMSEDOWG HTTP-// WMGS. 


ncs XNOD. COM/COWICS/ EXPLOITS. OF_ A_MOW. PNG 


图 11-4 漫画 网 站 XKCD 登载 的 SQL 注入 的 四 幅 漫 画 “ 妈 妈 的 安全 攻击 ，”URL 是 
http://xkcd.com/327/ 


第 1 幅 : 《电话 中 ) 这 里 是 您 儿子 的 学 校 ， 我 们 的 计算 机 出 了 点 儿 问 


题 。 (学 校 ) 


第 2 幅 ， 天 哪 ， 他 打破 什么 了 吗 ? (妈妈 ) 从 某 种 意义 上 说 ， 是 。 


(学 校 ) 


第 3 幅 : 您 儿子 果真 叫 “Robert];DROP TABLE Students;-- ”四 ? (学 
校 ) 是 啊 ， 我 们 叫 他 “LITTLE BOBBY TABLES”。 (妈妈 ) 


第 4 幅 : 这 下 可 好 ， 我 们 丢失 了 今年 的 学 生 记录 。 你 满意 了 吧 ? (学 


校 
我 希望 你 们 能 学 会 数据 库 的 输入 检查 。 (妈妈 ) 


对 于 不 知道 SQL 的 人 ， 需 要 额外 作 些 说 明 。 在 插入 数据 的 时 候 ，SQL 
用 如 下 的 INSERT 语句 。 


INSERT INTO 表 名 
1 属性 1 1 属性 1 


( 属性 1 ， 工 
VALUES (' 值 1' ，' 


现在 ， 要 输入 BOBBY TABLES 的 数据 时 ， 单 纯 将 字符 串 填 进去 ， 
INSERT 语句 就 变 成 如 下 的 样子 。 


INSERT INTO Students 


(' 姓 ' , ol ) 
VALUES ('Smith' , "Robert ' ) ;DROP TABLE Students;--') 


本 来 ， 从 Robert 开始 直到 “--” 为 止 都 应 当 是 名 字 ， 但 名 字 中 含有 “3”， 
INSERT 语句 到 此 结束 ， 分 号 之 后 接着 义 执 行 了 DROP TABLE 语句 

(数据 库 删 除 ) 。“--” 是 SQL 中 注释 的 开始 ， 剩 下 的 “)? 部 分 ， 作 为 注 
释 而 被 忽略 。 用 小 孩子 的 名 字 对 学 校 的 系统 进行 了 SQL injection， 真 
是 个 超级 黑客 妈妈 。 


本 来 ， 从 外 部 的 输入 不 能 原封 不 动 填 入 到 SQL 语句 中 去 。 因 为 填 入 的 
文字 中 可 能 含有 对 SQL 语句 有 某 种 意义 的 文字 。 


SQL 可 以 由 外 部 间接 赋予 参数 来 执行 的 功能 。 比 如 ，SQL 语句 写成 


INSERT INTO Students 


(' 姓 ' ; U2 ) 
VALUES (?, ?) 


名 和 姓 可 以 从 外 部 输入 ， 应 该 不 会 发 生 同 样 问题 吧 。 


因 对 外 部 输入 检查 得 不 到 位 所 导致 的 问题 ， 不 光 有 SQL 注入 , 在 
shell 和 html 中 同样 会 发 生 。 


11.1.9 Shell 注入 
Shell 注入 与 SQL 注入 原理 相同 。 


system("l1ls #{input}") 


上 面 的 程序 中 ， 调 用 she11 的 时 候 ， 如 果 输 入 input 的 值 是 


数据 就 可 能 会 整个 丢失 

从 外 部 的 输入 ， 如 果 不 进 行 检查 就 不 能 传递 给 system 等 危险 的 画 
数 ， 这 一 点 一 定 要 特别 注意 。 

为 了 从 一 定 程度 上 检查 出 这 类 问题 ，Ruby 和 Penl 中 有 “污染 检查 ” 功 
月 “给 外 部 条 入 的 数据 加 上 “洒洒 记号 ”， 禁 止 对 字符 浊 进 行 危险 的 可 
在。 

Ruby 的 污染 检查 ， 是 在 命令 行 参 数 里 附 上 -T 选项 ， 或 者 是 给 程序 中 


人 赋值 为 1。$SAFE 的 值 表示 安全 级 别 (参见 表 11- 
2 O 


表 11-2 ”安全 级 别 与 意义 


乱 险 操作 
:的 危险 操作 


被 污染 


安全 级 别 从 0 (默认 值 ) 开始 到 4 为止 。 实 际 利用 的 是 0、1、4 这 3 
个 值 。0 是 外 部 的 输入 没有 信赖 性 问题 的 程序 ，1 是 CGI 类 的 外 部 输 
入 需要 注意 的 程序 ，4 用 于 不 可 信赖 的 代码 。 级 别 4 不 在 我 们 讨论 的 
苑 围 。 
如 果 将 安全 级 别 设 为 1 以 上 ， 对 于 上 述 的 system 调用 : 

。 input 是 外 部 输入 〈 被 污染 ) ; 

。 input 里 舱 入 的 字符 串 也 被 污染 ; 


Te 


所 以 ， 在 成 为 严重 问题 之 前 ， 实 际 已 产生 了 错误 。 像 CGI 这 种 输入 不 
可 信赖 的 程序 ， 推 荐 在 任何 时 候 都 要 将 安全 级 别 设 为 1。 


但 是 ， 有 的 Web 应 用 程序 框架 对 $SAFE 的 应 对 不 够 充分 ， 在 安全 级 
别 0 以 外 就 不 运行 了 。 这 些 框架 一 定 得 改善 。 


11.1.10” 跨 站 点 脚本 攻击 


跨 站 脚本 攻击 与 SQL 注入 和 Shell 注入 一 样 ， 也 是 因为 将 输入 值 原封 
不 动 地 放 在 输出 值 内 而 引起 的 问题 。 


比如 说 ， 做 了 一 个 Web 公告 板 ， 如 果 用 户 输 入 中 含有 HTML 标签 
ttag) ， 就 可 能 会 出 现 违 反 公 告 板 设 置 者 的 意图 ， 随 便 租 入 图 像 ， 或 
考 租 入 意 想 不 到 的 链接 之 类 的 问题 。 从 这 个 观点 来 说 ， 或 许 应 该 称 之 
为 HTML 注入 。 


而 且 ，HTML 中 可 能 夹杂 着 JavaScript， 这 样 问 题 就 更 麻烦 了 “。 因 为 用 
JavaScript， 程 序 能 在 客户 端 执行 。 如 果 使 用 JavaScript， 可 以 做 各 种 
恶作剧 ， 比 如 ; 

。 弹出 窗口 ; 

。 操作 画面 的 组 成 元 素 ; 

。 访问 履历 。 
为 了 防止 这 类 事情 发 生 ， 将 用 户 输入 放 入 HTML 之 前 ， 一定 别 坪 了 检 
查 。 


cgi.rb 提供 了 CGI.escape 方法 (参见 图 11-5) ， 可 以 用 来 对 
HTML 进行 转 义 处 理 〈 特 殊 字符 的 变换 ) 。 
<$$=h req.params['input'] $%> 


puts CGI .escapeHTML('test<SCRIPT Language=JavaScript>alert ("Hello");</SCRIPT>') 
# => test&lt;SCRIPT Language=JavaScript&gt;alert (&quot ;Hello&quot;);&]lt;/SCRIPTKgt; 


图 11-5 ”CGI.escapeHTML 的 代码 例子 

Ruby on Rails 等 利用 的 eRuby 中 ， 如 果 用 h 方法 ， 可 以 像 下 述 这 样 进 
行 HTML 转 义 (包含 ERB: :Util 模块 时 一 一 Rails 中 默认 包含 此 模 
块 ) 。 

很 遗憾 ， 现 在 的 Ruby 不 会 目 动 检 测 XSS。 以 用 户 输入 为 基础 进行 输 
出 的 时 候 ， 别 忘 了 将 HTML 标签 进行 转 义 。 

把 受 污染 的 字符 串 原封 不 动 地 进行 输出 ， 就 会 产生 错误 ， 这 种 模板 引 
警 7 还 没有 一 般 化 。 已 经 有 了 Tempura (URL 是 
http://www.fobj.com/tempura/ ) 等 实施 检查 的 模板 引擎 ， 也 希望 为 了 安 
全 而 进行 的 污染 检查 能 够 一 般 化 。 


7 Template Engine (模板 引擎 ) ， 一 种 将 程序 和 画面 剥离 开发 的 工具 。 


11.1.11 ”路 站 点 伪造 请 求 


跨 站 伪造 请 求 (CSRF) 是 Web 应 用 程序 固有 的 攻击 手段 ， 近 些 年 成 
为 大 家 议论 的 话题 。 

几 年 前 ， 社 交 服 务 网 站 Mixis 中 发 生 了 一 个 事件 ， 在 用 户 本 人 不 知情 
的 情况 下 ， 日 记 中 被 写 入 了 "你 好 ， 你 好 ， 我 是 玛 琪 ! ”的 内 容 。 这 是 
利用 CSRE 的 恶作剧 。 


8 Mixi 是 日 本 著名 的 交友 网 站 。 一 一 译 者 注 


利用 CSRF， 可 能 蒙混 网 络 应 用 程序 的 认证 ， 经 第 三 者 发 送 请 求 。 这 
个 事件 里 ， 由 于 错误 地 发 出 了 第 三 者 的 写 入 日 记 的 请 求 ， 导 致 在 用 户 
不 知情 的 情况 下 往日 记 里 写 入 了 新 的 内 容 。 


而 且 ， 如 采 无 意 间 点 击 了 这 个 日 记 中 的 链接 的 话 ， 束 会 触发 攻击 程 
序 ， 妃 加 同样 的 日 记 内 容 ， 转 眼 之 间 ， 像 谜 一 样 的 日 记 内 容 扩 散 到 整 


个 Mixi 中 


这 种 行为 的 古 非 暂且 不 说 ， 通 过 这 个 事件 ， 以 前 默默 无 闻 的 CSRF 名 
声 大 振 。 因 为 CSRF 可 以 伪造 各 种 各 样 的 请 求 ， 潜 在 危害 不 小 ， 所 以 
大 家 开始 重视 它 ， 积 极 研 究 对 策 ， 应 该 说 是 件 好 事 。 事 实 上 ， 我 所 使 
用 的 Web 应 用 程序 中 有 很 多 原来 没有 CSRF 对 策 ， 那 件 事 情 之 后 ， 我 
采取 了 紧急 对 策 。 


CSREF 的 原理 如 下 。 


正如 HTTP 那 一 节 讲 述 的 那样 ， 构 成 Web 应 用 程序 的 每 一 页 由 两 部 分 
构成 ， 一 个 来 自 网 络 浏 览 器 的 HTTP 请 求 ， 一 个 是 HTTP 服务 器 的 响 
应 。 本 来 ，HTTP 里 不 含 状态 ， 为 了 识别 网 上 程序 一 连 串 的 交互 (会 
话 ) ， 使 用 了 cookie (Web 浏览 器 保 存 的 信息 ) 或 者 请 求 中 的 会 话 
ID。 由 此 进行 连续 处 理 ， 这 是 一 般 做 法 。 登 录 信息 也 是 同样 处 理 。 


站 点 A (普通 站 点 ) 站 点 B (恶意 站 点 ) 


请 求 HTMI 


(cookie ) 


请 求 HTML 
(cookie ) 


对 站 点 A 的 请 求 含 有 URL 
<IMG SRC = " "> 


Web 浏览 器 


卫 


图 11-6 ”CSREF 的 攻击 步 台 


假设 会 话 ID 的 信息 存放 在 cookie 里 ， 站 点 A 是 受 攻击 对 象 。 用户 正 

当 登 录 到 站 点 A 中 (参见 图 11-6WD) 。 登 录 成 功 后 ， 站 点 A 往 浏览 右 
发 送 一 个 cookie， 作 为 访问 权 的 证 明 。 以 后 ， 浏 览 右 往 站 点 A 发 送 请 
求 时 ， 连 市 此 cookie 一 起 发 送 。 站 点 A 过 到 此 cookie， 束 认为 是 来 目 
正当 用 户 的 访问 。 


接着 ， 用 户 获取 站 点 A 中 某 一 页 ， 该 页 含有 不 正当 的 链接 。 当 然 ， 该 
用 户 不 知道 链接 是 有 问题 的 。 (参见 图 11-6@ 


如 果 点 击 了 这 个 有 问题 的 链接 ， 就 会 取得 恶意 站 点 B 的 某 一 页 (参见 
11-6@) 。 站 点 B 虽然 返回 HIML， 但 其 中 含有 像 <img> 这 种 能 够 
目 动 装载 的 标签 ， 标 签 里 内 棚 有 人 能够 攻击 站 点 A 的 URL。 这 就 是 
CSREF 的 原理 。 


为 了 应 对 CSRF， 会 话 ID 中 不 光 要 含有 cookie， 还 要 附加 能 够 证 明 这 
征 正 确 请 求 的 信息 。 

有 3 个 方法 可 以 实现 这 一 目的 : 附加 称 为 标记 (token) 的 信息 ， 检 查 
HTTP 请 求 来 源 (Referer) 以 及 频 粽 进行 认证 。 频 繁 的 认证 检查 太 多 
了 ， 用 着 不 方便 ,一般 用 男 外 两 个 方法 。 


现在 ， 包 括 Ruby on Rails 在 内 ， 提 供 了 某 种 CSRF 对 策 的 Web 应 用 程 
序 框架 ?3 也 在 增加 。 请 参照 各 框架 的 手册 。 


9 Web 应 用 程序 框架 是 指 为 了 开发 Web 应 用 程序 而 设计 的 类 和 库 。 


六 


a 


除了 会 话 固化 (Session Fixation) 之 外 ， 还 有 别 的 攻击 手段 。 其 中 有 
很 多 可 以 由 Web 应 用 程序 框架 来 对 付 。 编 写 安全 的 Web 应 用 程序 的 
根本 ， 束 是 采用 有 认真 的 安全 防范 措施 的 框架 。 


11.1.12 ”社会 工程 


以 上 讲解 了 由 于 程序 的 缺陷 所 造成 的 漏洞 的 几 个 例子 。 问 题 是 ， 不 光 
是 程序 的 缺陷 会 造成 漏洞 ， 倒 是 更 原始 的 方法 所 造成 的 问题 更 多 。 比 
如 说 ， 将 密码 写 在 小 纸 条 上 贴 在 显示 需 边 框 上 ， 往 客户 服务 中 心 打 电 
话 伪装 成 遇 到 困难 的 善意 用 户 ， 问 出 会 员 信息 ， 等 等 。 

像 这 样 用 原始 手段 攻击 系统 的 安全 ， 有 时 称 为 社会 工程 攻击 (social 
engineering) 。 开 发 人 员 对 此 无 能 为 力 ， 只 能 靠 提 高 运用 层面 的 防范 
意识 来 应 对 。 

“锁链 的 强度 取决 于 最 弱 的 环节 ”， 这 是 在 谈 到 安全 性 时 经 党 使 用 的 一 
句 谚 语 。 虽 然 对 策 不 完全 靠 开 发 人 员 的 努力 也 是 事实 ， 但 开发 人 员 不 
能 因此 而 放弃 弥补 程序 上 的 缺陷 。 


* 米 米 


这 次 重新 思考 了 安全 问题 。 安 全 是 一 个 非常 深奥 的 问题 ， 这 次 的 讲解 
只 能 算是 接触 到 这 个 问题 的 皮毛 。 但 古 ， 很 多 的 安全 问题 ， 可 以 通过 
语言 或 框架 得 到 某 种 程度 的 解决 。 为 了 使 用 户 不 必 在 安全 问题 上 烦 

恼 ， 是 下 或 省 竹 架 的 开发 人 员 必须 不断 劣 。 语 言 开 发 人 员 必 须 谨 记 


11.2 用 异常 进行 错误 处 理 


查 查 日 语词 典 《 广 酬 苑 》,， “异常 * 这 个 词 是 这 么 解释 的 : “与 通常 的 原 
则 不 相符 合 ， 不 适用 一 般 原则 ， 或 者 出 现 这 种 状况 的 事物 。 例 :没有 
不 存在 异常 的 规则 。， 


具体 到 编程 方面 , “程序 在 执行 某 种 处 理 的 过 程 中 ， 发 生 了 某 种 寞 

常 ”? 以 及 “表示 这 种 状况 的 对 象 ” 被 称 为 异常 。 男 外 ， 处 理 这 种 异常 的 功 
能 称 为 异常 处 理 功能 。 这 种 异常 处 理 功 能 并 不 是 Ruby 所 特有 的 ， 
Lisp、Java、C++ 等 多 种 语言 都 具备 这 种 功能 。 


很 多 具有 异常 处 理 功 能 的 语言 ， 在 发 生 异 党 以后， 都 会 中 断 程 序 。 这 
征 因 为 发 生 了 超 手 预想 的 情况 ， 不 能 指望 程序 再 正常 执行 下 去 了 。 


“ 超 乎 预想 的 情况 ”"， 是 指 类 似 于 想 要 打开 的 文件 不 存在 这 样 的 情况 。 
文件 不 存在 ， 也 就 不 能 从 文件 中 读 取 数据 ， 程 序 该 如 何 执行 也 束 无 从 


知道 。 


这 时 ， 目 动 中 断 程 序 的 执行 ， 是 很 受 欢 迎 的 。 在 没有 异常 处 理 的 C 语 
言 中 ， 文 件 的 打开 处 理 估计 会 像 图 11-7 所 示 的 这 样 吧 。 


#include <stdio.h> 
main() 
{ 

FILE *f = fopen("/path/to/file", "“r"); 


if (f == NULL){ /* 不 能 打开 的 话 ， 就 是 NULL*/ 
A/ 


文件 打开 失败 时 的 处 理 */ 
fprintf(stderr, "open file %s failed"); 
exit(1); 


图 11-7 C 语言 中 打开 文件 


11-7 的 程序 中 ， 打 开 文 件 的 实质 性 的 处 理 只 有 第 5 行 中 fopen 的 
部 分 。fopen 函数 指定 文件 名 和 打开 模式 ， 打 开 文 件 ， 把 结果 放 在 
FILE 结构 体 中 ， 用 于 以 后 的 读 / 写 操作 。 但 是 ，fopen 有 时 可 能 会 
败 ， 失 败 时 不 能 生成 FILE 结构 体 ， 返 回 NULL 作为 错误 标志 。 

从 第 7 行 到 第 11 行 是 失败 时 的 处 理 。 这 里 表示 出 现 错误 信息 之 后 ， 使 
用 exit 函数 中 断 程序 。 必 须 一 一 检查 有 没有 发 生 错误 ， 这 样 程序 变 
得 繁杂 了 ， 而 且 在 忘记 检查 时 ， 程 序 可 能 会 在 前 提 条 件 不 成 立 的 情况 
下 执行 。 正 如 上 闻 所 述 ， 这 样 的 检查 遗漏 会 引发 安全 问题 。 


如 采 是 Ruby， 程 序 可 以 写成 图 11-8 所 示 的 样子 。 


f = open("/path/to/file", "r") 


LE 


图 11-8 ”Ruby 语言 中 打开 文件 

与 C 语言 程序 比较 起 来 ， 简 活 太 多 了 ， 有 点 让 人 怀 奇 。 只 需要 打开 文 

。 如果 没 有 特别 指定 ， 异 常 的 状况 就 交 给 语言 
理 好 了 * 


11-8 中 的 Ruby 程序 ， 如 果 文 件 不 存在 ， 就 会 像 图 11-9 的 程序 那 
样 ， 输 出 错误 信息 ， 然 后 中 断 。 


f.rb:1:in ‘initialize': No Such file or directory - /path/to/file 


(Errno: :ENOENT) 
from f.rb:1:in ‘open' 


图 11-9 ”文件 不 存在 时 的 错误 信息 
Ruby 中 发 生 了 异 泗 ， 整 中断 程序 执行 ， 输 出 该 异常 所 对 应 的 信息 。 


但 是 ， 并 不 是 在 所 有 情况 下 ， 都 希望 程序 一 发 生 异 常 就 中 断 。 比 如 在 
用 Ruby 写 一 个 文字 处 理 程序 时 ， 仅 仅 是 在 打开 文件 的 对 话 框 里 敲 错 
了 文件 名 ， 就 将 整个 儿 文 字 处 理 程序 结束 ， 并 不 能 说 这 是 什么 值得 高 
兴 的 事 。 在 没有 明示 会 有 什么 异常 时 ， 我 们 希望 中 断 程 序 ， 但 在 能 够 
预测 异常 事态 时 ， 则 希望 用 程序 来 应 对 。Ruby 中 用 begin 来 捕捉 异 
常 (参见 图 11-10) 。 


begin 
print "input filename:" 
path = STDIN.gets 
path.chomp! 
open = open(path, "r") 


rescue Errno: :ENOENT 


printf "No file: %s\n", path “文件 不 存在 时 输出 错误 信息 
-从 begin 开始 再 执行 一 次 


ls 
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图 11-10 用 begin 捕 


从 begin 到 rescue 之 间 ， 如 果 发 生 了 异常 ， 那 么 只 有 在 rescue 

里 指定 的 异常 才 会 被 捕捉 。 比 如 在 读 取 文件 名 等 系统 调用 时 发 生 了 错 
误 代 码 Errno: :ENOENT 以 外 的 异常 ，rescue 中 会 无 视 ， 程 序 的 执 
行 被 中 断 。 执 行 的 中 断 是 从 最 后 的 调用 方法 开始 ， 一 直上 漳 查 找 ， 如 
果 找 到 对 应 的 rescue ， 则 被 该 rescue 所 捕获 。 如 果 到 最 后 还 没有 
找到 ， 就 显示 异常 信息 ， 并 终止 程序 执行 。 


Java 和 C++ 中 使 用 try 来 捕捉 异常 但 try 隐 含 着 “ 试 一 试 "的 意 
思 ， 我 不 太 中 意 ，Ruby 中 就 专门 选 了 begin 这 个 词 。 


里 然 这 样 做 可 以 让 程序 员 集 中 精力 作 实质 性 的 处 理 ， 市 来 很 多 很 多 的 
便利 ， 但 也 并 不 全 是 好 处 。 异 第 说 到 底 是 某 种 形式 的 goto ， 程 序 流 
程 的 控制 变 难 了 。 但 异常 与 goto 还 不 同 ， 异 常 没有 指明 发 生 的 地 
方 ， 其 问题 更 加 复杂 。 


那么 该 如 何 正确 进行 异常 处 理 呢 ? 后 面 将 会 讲解 。 
11.2.1 异常 的 历史 


含有 异 第 的 语言 中 ， 使 用 人 数 最 多 的 ， 我 想 应 该 是 Java 吧 。Java 这 种 
语言 ， 吸 收 了 过 去 的 语言 所 提供 的 先进 功能 ， 并 使 它们 普及 ， 作 出 了 
很 大 贡献 。 但 并 不 是 Java 发 明了 异 肖 。 实 际 上 ， 早 在 Java 流行 之 前 

儿 十 年 ， 异常 束 存 在 了 。 


最 初 是 哪 种 语言 开始 提供 异常 处 理 功能 的 ? 很 遗憾 ， 我 没 能 得 到 确切 
答案 。 我 推测 是 Lisp， 要 么 就 是 与 其 相近 的 某 种 语言 。Lisp 从 1972 
年 开始 就 有 了 异常 处 理 功能 ， 而 Java 是 20 年 前 才 诞 生 的 。 

Ruby 也 是 在 Java 广为人知 之 前 就 具有 了 异常 处 理 功 能 。 我 自己 学 习 
异常 ， 是 从 一 则 介绍 庄 省 理工 学 院 (MIT) 开发 的 CLU 语言 的 报道 开 
始 的 。CLU 等 语言 间接 影响 了 Ruby 。 


从 Java 以 后 ， 异 常 就 变 得 很 普通 了 ，21 世纪 的 语言 ， 几 乎 都 具有 异常 
处 理 功能 。 


11.2.2 ”Java 的 受 控 异 常 


也 介绍 一 点 Ruby 以 外 的 语言 吧 。 


Java 的 异 第 与 Ruby 的 异常 很 相似 。 最 大 的 区 别 在 于 ， 各 目的 方法 中 
征 否 有 必要 明确 指出 发 生 弄 种 的 可 能 性 。 图 11-11 显示 的 是 Java 的 方 
法 定义 (一 部 分 。 方 法 名 和 人 参数 之 后 ， 用 throws 指定 所 要 发 生 的 
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void open_file() throws FileNotFoundException{ 


return new FileReader("/path/to/file"); 
} 


图 11-11 ”Java 的 方法 定义 ( 含 异 常 ) 


而 且 在 Java 的 方法 定义 中 ， 如 果 调用 了 带 异常 的 方法 ， 该 异常 既 没 有 
在 异常 处 理 中 捕获 ， 又 没有 throws 指定 ， 就 会 发 生 编译 错误 ， 异 常 也 
会 成 为 方法 类 型 的 一 个 组 成 部 分 ， 这 样 的 异常 称 为 受 控 异常 。 被 广泛 
使 用 的 语言 中 ， 采 用 受 控 异常 的 ，Java 是 第 一 个 !。 从 整体 而 言 ，Java 
没 怎么 采用 新 的 作法 ， 是 一 种 保守 的 程序 设计 语言 ， 但 在 这 个 巧妙 的 
地 方 冒 了 一 次 险 。 


1 上述 的 CLU 也 声明 画 数 产生 的 异常 ， 但 CLU 怎么 也 算 不 上 是 “广泛 使 用 的 语言 ”。 


为 了 不 至 于 漏 挥 对 茶 个 异 间 的 捕获 ， 编 辑 人 左 记 格 进行 检查 ， 从 这 个 意 
义 上 说 ， 受 控 异 第 是 个 难能可贵 的 功能 。 这 与 积极 检查 与 静态 类 型 不 
一 致 的 类 型 一 样 ， 征 符合 Java 方针 的 。 


但 是 ， 也 有 对 受 控 异常 的 批评 。 本 来 ， 之 所 以 补 称 为 异常 ， 束 古 因为 
不 好 提前 预想 。 但 为 了 不 出 编译 错误 ， 编 码 时 却 妥 强制 性 地 一 一 声 
明 ， 真 是 件 很 痛 天 的 事 。 


实际 上 ， 昌 然 看 起 来 与 数据 库 文 件 之 类 的 没 什 么 关系 ， Java 的 方 
法 中 却 要 抽出 SQLException 或 ITOException 的 例子 也 是 有 的 。 

也 就 是 说 ， 让 用 户 看 到 了 一 些 并 不 必要 的 详细 实现 细 敢 。 

这 么 说 来 ， 如 果 削 足 适 履 ， 为 了 配合 每 一 个 方法 的 意义 ， 而 强制 对 异 
常 进 行 置换 ， 或 者 是 为 了 不 出 编译 错误 ， 而 勉强 捕获 异常 ， 就 有 些 本 
末 倒 置 了 。 出 了 编译 错误 ， 也 就 是 编译 器 “生气 了 ”。 如 果 是 真 的 有 


错 ， 受 点 编译 需 的 气 那 也 没 办 法 ， 但 如 采 仅 仅 是 因为 异 间 的 种 类 稍微 
有 所 不 同 束 受气 的 话 ， 是 不 利于 精神 健康 的 。 而 且 ， 为 了 消除 编译 错 
误 ， 必 须 写 进 大 量 的 异常 处 理 ， 异 常 的 种 种 好 处 全 被 抵消 了 。 


请 不 要 误解 。 受 控 异 常 也 有 好 处 。 但 从 个 人 来 讲 ， 比 起 那 种 不 允许 犯 
错 的 广 厉 老师 一 样 的 语言 ， 我 更 喜欢 Ruby 这 种 宽容 的 语言 。 


11.2.3 Icon 的 面向 目标 判断 


作为 异常 的 变形 ， 介 绍 一 下 Icon 语言 的 目标 指 回 判 断 吧 。Icon 是 亚 利 
桑 那 大 学 开发 的 以 处 理 字符 串 和 模式 匹配 为 目的 的 编程 语言 。 


Icon 中 的 异常 (Icon 中 称 为 失败 ) 用 “ 伪 * 来 表示 。 也 就 是 说 ， 计 算 某 
个 值 的 时 候 没 发 生 异 常 就 是 真 ， 发 生 了 异常 就 是 伪 。 所 以 ， 对 于 if 
式 条 件 判 断 ， 在 Ruby 等 语言 中 是 判断 “如 果 式 子 是 真 "， 但 Icon 不 
同 ， 判 断 的 是 “如 果 式 子 成 功 ( 没 发 生 异 常 ) ”。 这 样 ， 即 使 是 


a < b 


这 样 简单 的 式 子 ， 其 意义 并 不 是 “a 与 b 比较 ， 如 果 b 大 就 是 真 ， 如 果 
b 小 或 二 者 相等 就 是 伪 ”， 而 是 “a 与 b 比较 ， 如 果 二 者 相等 或 者 a 
大 ， 束 是 异常 ， 否 则 返回 b 值 ”。 结 打 


这 种 式 于 也 古 正 确 的 式 子 。 判 断 这 个 式 子 的 时 候 ，a < b 的 值 在 比较 
征 真 的 时 候 是 b ， 接 着 再 判断 b < c。 


如 采 最 初 的 比较 是 仿 ， 整 个 式 子 束 是 失败 ， 后 面 的 比较 束 不 再 进行 。 
在 Ruby 等 真 伪 值 判断 的 语言 中 ， 必 须 写 成 


a < bg&&b<c 


如 有 果 条 件 式 以 外 的 部 分 判断 得 出 失败 ， 像 其 他 语言 中 的 异常 一 样 ， 整 
中 断 程序 执行 。 


这 样 ，Ruby 中 的 程序 段 


begin 
# 读 入 1 行 
while line = gets() 
# 打印 1 行 


print line 
end 
rescue 
# 什么 都 不 干 


end 


用 Icon 语言 写 束 是 


while write(read()) 


read 函数 一 行 一 行 读 取 ， 将 读 取 的 值 作为 返回 值 传 给 write ， 然 后 
输出 。 文 件 读 到 最 后 ，read( ) 函数 失败 。Icon 的 while 语句 是 “ 直 
到 条 件 判 断 式 失败 为 止 ， 反 复 循环 ”的 意思 。read( ) 函数 的 失败 被 
while 语句 的 条 件 判 断 捕 获 ， 结 束 循环 。 


除 此 之 外 ，Icon 中 还 有 every 语句 ， 这 有 是 直到 失败 为 止 各 种 组 合 都 务 
坛 一 思 的 控制 结构 。“ 直 到 达成 某 种 目的 为 止 持续 判断 ”， 基 于 Icon 的 
这 种 判断 方式 ，Icon 被 称 为 面向 目标 判断 。 


Ruby 在 设计 之 初 ， 也 曾 认 真 考虑 过 采用 像 Icon 式 的 真 伪 值 判 断 ， 结 
果 还 是 采用 了 nil 和 false 以 外 的 值 全 是 真 值 的 这 种 正统 方式 。 如 
果 那 时 候 ， 作 出 了 另 一 种 判断 ， 或 许 Ruby 的 性 质 就 会 大 变样 。 
11.2.4 ”Ruby 的 异常 


现在 再 来 说 说 Ruby 的 异常 吧 。 首 先 捕 获 异 常 的 是 begin 语句 。 
begin 语句 的 语法 如 图 11-12 所 示 。 


begin 
可 能 发 生 异 常 的 处 理 


rescue 异常 类 ，... 


将 异常 对 象 赋值 
省 略 异 常 类 时 ， 使 用 StandardError (标准 氏 
即便 省 略 变量 ， 也 可 以 用 $! 参 照 


跳出 begin 语句 以 后 的 处 理 
不 管 异常 发 生 或 者 不 发 生 ， 都 要 执行 的 处 理 


end 


图 11-12 ” begin 语句 的 语法 


begin 语句 有 4 节 。 关 键 字 begin 和 主体 ， 记 壕 可 能 发 生 异常 时 的 
处 理 。 剩 下 的 “rescue ”m “else”T 和 “ensure ”全 部 都 可 以 省 
格 。 


跟 在 主体 之 后 的 rescue 世 ， 指 定 异 常 处 理 。Java 中 称 为 catch 。 
rescue 这 个 名 字 是 从 Eiffel 语言 中 借用 的 。 


本 来 ， 借 用 的 只 是 名 子 本 映 ， 实 际 的 异常 处 理 原 理 很 不 相同 。 不 管 怎 
么 说 ，rescue 这 个 单词 暗含 有 “将 程序 从 异常 状况 中 救出 来 ”之 意 ， 
不 觉得 很 酷 吗 ? 


rescue 节 指 定 异 党 类。 本 体 在 执行 时 ， 如 果 发 生 了 指定 的 异常 ， 
rescue 的 内 容 就 会 被 执行 。rescue 节 的 异常 判定 是 以 异常 类 为 基 
础 进行 的 。 也 束 是 说 ， 发 生 的 异常 类 ， 如 果 是 指定 的 类 或 其 子 类 ， 就 
认为 是 一 致 的 。 这 对 于 被 强调 为 鸭子 类 型 ， 不 怎么 以 类 的 层次 结构 为 
基础 来 处 理 的 Ruby 而 言 ， 是 很 罕见 的 ? 。 


2 还 有 一 个 地 方 ， 积 极 利 用 类 层次 结构 的 是 Numeric 类 和 其 子 类 。 因 为 数 的 层次 结构 是 从 数 
学 上 来 定义 的 。 


rescue 万 的 类 可 以 省 略 ， 这 时 候 看 做 是 指定 了 StandardError 
类 。Ruby 的 异常 类 全 部 继承 自 Exception 类 ， 如 果 指 定 了 


Exception 类 ， 那 么 就 会 捕获 全 部 的 异常 。 但 是 ， 后 面 也 会 讲解 
我 并 不 希望 指定 太 大 范围 的 异常 类 。 


异 凋 对 象 所 对 有 的 异 彰 信息， 被 赋值 给 异 间 对象 后 荣 跟 着 => 的 变量 
里 。 这 也 可 以 省 略 。 在 省 略 的 情况 下 ， 发 生 的 异常 可 以 用 特殊 变量 $1 
引用 。 但 $ 和 ! 出 现 太 多 的 话 ， 会 让 程序 看 起 来 很 丑陋 。 


rescue 节 中 ， 可 以 使 用 retry 语句 。 用 retry 语句 ， 则 从 begin 
开始 ， 包 含 rescue 市 ， 会 再 执行 一 次 。 如 果 rescue 中 发 生 异 常 的 
原因 被 消除 了 ， 用 retry 再 执行 一 遍 ， 人 处理 就 会 正常 终止 。 但 是 ,在 
retry 之 前 ， 如 果 原 因 没 有 消除 ， 束 会 简单 地 陷入 到 无 限 循 环 中 ， 这 


人 bac = — 
点 请 注意 。 


对 发 生 的 每 一 个 异常 进行 不 同 的 处 理 ， 并 不 罕见 。 所 以 ，rescue 节 
中 ， 当 然 可 以 指定 多 个 异常 。rescue 节 中 的 一 致 性 判定 从 上 到 下 执 
行 ， 执 行 第 1 个 匹配 的 异常 。 比 如 有 多 个 与 rescue 的 指定 相 匹配 的 
异常 发 生 时 ， 实 际 执行 的 也 只 有 第 1 个 。 

rescue 的 后 面 可 以 放 else 市 ， 这 只 有 在 begin 主体 中 没 发 生 异 常 
时 执行 ， 作 为 成 功 时 的 后 续 处 理 。 实 际 上 begin 语句 的 else 六 用 途 
不 大 ， 从 我 自己 的 经 验 来 看 ，else 市 几乎 没有 必要 。 

放 在 begin 语句 最 后 的 是 ensure 节 ，Java 中 称 为 finally。 这 个 
名 字 也 是 来 源 于 Eiffel。 本 来 ，Eiffel 中 ensure 并 不 用 于 异常 处 理 ， 
而 是 用 于 指定 方法 执行 后 应 当 满 足 的 事后 条 件 。 


ensure 节 里 指定 的 处 理 ， 从 begin 语句 跳出 时 肯定 被 执行 。 从 
begin 语句 的 苑 围 内 跳出 的 方法 有 : 


。 执行 终止 ; 


。 return 、break 等 ; 


。 异常 。 
不 管 采 用 哪 种 方法 跳出 begin 的 范围 ， 都 要 执行 ensure 语句 3 。 


3 严格 来 讲 ， 只 有 用 延续 (Continuation) 来 跳出 begin 的 范围 ， 才 不 执行 ensure 节 。 


ensure 世 用 于 解决 异 音 发生 时 ， 由 于 执行 被 中 断 所 导致 的 不 一 致 。 
天 于 这 一 点 ， 后 面 还 会 有 详细 的 说 明 。 


11.2.5 “异常 发 生 


现在 来 看 看 让 异常 发 生 的 方法 。 异 常 发 生 用 raise 方法 。Ruby 中 ， 
raise 不 是 关键 字 ， 只 是 单纯 的 方法 。 调 用 raise 方法 后 ， 生 成 一 
个 异常 对 象 ， 中 断 程 序 开始 执行 。 途 中 ， 如 果 有 与 异常 对 象 相 匹配 的 
rescue 节 ， 处 理 就 移交 给 它 (rescue 节 ) 。 在 rescue 中 (通过 
rescue 节 的 赋值 ， 或 是 变量 $!) ， 可 以 访问 异常 对 象 。 


调用 raise 方法 有 几 种 形式 ， 根 据 情况 区 别 使 用 。 首 先 ， 最 基本 的 古 
仅 指 定 错误 信息 。 


raise "something bad happens" 


这 样 就 产生 了 RuntimeError 异常 。 首 先 不 要 在 意 异 常 的 种 类 ， 只 
能 传达 错误 信息 ， 这 个 形式 就 已 经 足够 。 


下 一 个 形式 是 指定 异常 类 与 请 妃 。 


raise TypeError， "wrong type" 


异常 类 (TypeError ) 指定 Exception 类 的 子 类 。raise 在 内 部 

生成 指定 类 的 实例 ， 并 中 断 程序 的 执行 。 第 2 种 形式 的 raise 中 ， 第 

3 个 参数 可 以 省 略 。 第 3 个 参数 可 以 是 数组 ， 该 数组 用 于 回 济 
(backtrace ) 哪 一 个 函数 从 哪 一 行 被 调用 的 信息 。 


raise exc 


这 种 形式 中 ， 包 括 回 调 在 内 的 原来 的 异 滑 信息 都 被 原样 保存 ， 并 传送 
给 调用 的 上 一 级 。 

最 后 的 形式 是 省 略 全 部 参数 的 raise 方法 。 这 种 情况 下 ， 在 rescue 
中 ， 发 生 的 异常 保存 在 变量 $! 中 。 在 rescue 世 的 外 侧 ， 发 生 人 信息 


为 空 的 RuntimeError 异常 。 


11.2.6 ”异常 类 


现在 来 看 看 异常 类 的 层次 结构 吧 。 图 11-13 是 Ruby 异 常 类 的 层次 结构 


Exception 
StandardError 
ypeError 
ArgumentError 
IndexError 
KeyError 
RangeError 
FloatDomainError 
ZeroDivisionError 
NameError 
NoMethodError 
RuntimeError 
EncodingError 
TOREESOE 
EOFErrOr 
RegexpError 
LocalJumpError 
hreadError 
SvystemCallError 
Errno :ENOENT 
SecurityError 
NoMemoryError 
SystemStackError 
ScriptError 
SyntaxError 
LoadError 
NotImplementedError 
SignalException 
Interrupt 
SystemExit 


图 11-13 ”Ruby 的 异常 类 层次 结构 图 


Exception 是 所 有 异常 类 的 父 类 。Exception 子 类 以 外 的 类 ， 不 能 
作为 raise 的 参数 。 


StandardError 通常 是 为 了 表示 程序 执行 中 发 生 的 异常 事件 的 类 。 
StandardError 是 rescue 广 中 没 指定 类 名 时 的 默认 值 。 反 过 来 
说 ，StandardError 的 子 类 以 外 的 类 需要 特别 的 处 理 。 


比如 ，NoMemoryError 类 在 内 存 不 足 、 不 能 生成 对 象 时 发 生 。 内 存 
不 足 时 能 够 做 的 事 几 乎 没有 ， 这 个 类 就 不 能 作为 StandardError 的 
于 类 3 


ScriptError 是 程序 本 身 有 错误 时 发 生 。 这 时 比 继续 执行 程序 更 优 
先 的 是 修改 程序 错误 ， 这 个 类 也 不 作为 StandardError 的 子 类 。 还 
有 ， 由 键盘 中 断 引 起 的 Interrupt 和 exit 会 最 终 导 致 程 序 终止 ， 
此 时 发 生 的 SystemExit 也 不 是 StandardError 。 这 些 异 常 都 是 
由 错误 引起 的 ， 从 严格 意义 上 说 ， 它 们 不 是 异常 (而 是 错误 ) 

操作 系统 的 系统 调用 失败 时 ， 产 生 SystemCallError 的 子 类 异常 。 
这 些 异 常 因 POSIX 规格 的 错误 代码 errno 而 得 名 。 比 如 文件 不 存在 
时 ， 产生 Errno: :ENOENT 异常 。 这 些 异 常 类 的 名 字 不 以 Error 为 
结尾 ， 是 比较 罕见 的 个 例 。 


11.2.7 异常 处 理 的 设计 方针 


如 上 所 述 ， 异 常 处 理 具 有 某 些 goto 的 特点 ， 使 用 时 有 必要 注意 一 
下 。 这 里 介绍 一 下 正确 的 异常 处 理 的 设计 方针 。 


首先 应 当 考 虚 的 是 ， 方 法 的 正当 性 。 方 法 的 执行 应 当 “ 异 常安 
全 ”(Exception Safe) 。 所 谓 异 常安 全 ， 是 指 执行 时 即使 发 生 了 异常 ， 
也 不 会 发 生 异 常情 况 。 比 如 : 

。 因为 发 生 了 异常 ， 留 下 了 不 完全 的 数据 结构 ; 

。 因为 发 生 了 异常 ， 数 据 库 里 进 了 垃圾 ; 

。 因为 发 生 了 异常 ， 程 序 异常 终止 。 
如 果 发 生 了 了 上述 情况 ， 这 样 的 方法 就 不 能 称 为 异常 安全 。 异 常安 全 的 
实现 ， 说 起 来 简单 做 起 来 难 。 粗 心 大 意 的 话 ， 了 驶 会 在 想不到 的 地 方 发 
生 异 常 。 为 了 做 到 异常 安全 ， 应 当 使 用 ensure 来 进行 善后 处 理 。 


看 看 图 11-14。 它 是 打开 数据 库 进行 处 理 的 程序 的 一 部 分 (大致 示 
意 ) 。 这 里 用 “......” 来 表示 数据 库 处 理 中 发 生 了 异常 ， 程 序 的 执行 在 
那里 中 断 ， 结 采 数 据 库 没 有 关闭 程序 束 结 束 了 。 


(a) 非 异 常安 全 的 示例 


db = database_open() = 打开 数据 库 
de 对 数据 库 


db .close 一 关闭 数据 库 


(b) 异常 安全 的 示例 
db = database_open() =- 打开 数据 库 


begin < 用 begin 语 句 将 数据 库 


对 数据 库 进 行 处 理 


- 关闭 数据 库 


图 11-14 异常 安全 的 程序 


男 一 方面 ， 在 图 11-14b 中 数据 库 处 理 的 全 体 用 begin 语句 包 起 来 。 
处 理 中 即使 发 生 了 异常 ， 也 会 保证 在 ensure 市 中 将 数据 库 关 闭 。 


里 说 如 此 ， 在 Ruby 这 样 的 语言 中 ， 也 许 一 般 用 户 对 于 异 第 安全 没 必 
要 过 于 担心 。 即 使 有 构建 了 半截 的 不 完整 的 数据 结构 ， 或 是 有 打开 了 
而 没有 关闭 的 文件 ， 某 个 时 候 也 会 有 垃圾 处 理 机 制 来 回收 。 但 是 ， 开 
发 数据 库 处 理 程 序 的 的 层 开 发 人 员 ， 非 党 有 必要 意识 到 异常 安全 。 


其 次 应 当 注 意 的 是 ， 不 应 当 受 理 超出 必要 范围 的 异常 ， 特 别 是 应 当 避 
免 在 rescue 节 指 定 Exception。 事 先 完全 预测 会 发 生 什 么 样 的 异 
常 是 很 困难 的 。 自 己 不 能 预测 的 异常 ， 不 要 勉强 去 捕获 ， 应 当 交 给 上 
层 程 序 去 处 理 。 如 果 在 rescue 节 里 指定 Exception ， 束 会 把 本 来 应 
当 到 达 上 层 的 没 预测 到 的 异常 也 给 捕获 了 。 


最 后 应 当 注 意 的 是 ， 除 非 清楚 知道 自己 在 干什么 ， 否 则 处 理 部 分 不 要 
使 用 空 的 rescue 节 。 因为 处 理 部 分 使 用 空 的 rescue 世 ， 就 是 无 视 


所 发 生 的 异 前 。 但 是 ， 任 何 异 常 之 所 以 发 生 ， 肯 定 有 其 发 生 的 理由 。 
无 视 异 解 ， 吕 等同 于 软件 执行 中 没 发 生 任何 问题 。 这 里 的 处 理 要 是 焉 
包 了 ， 束 可 能 错失 民 机 ， 在 后 面 配 成 更 大 的 问题 。 当 然 在 有 些 情 况 下 
可 以 无 视 异常 ， 但 应 当 避 人 免 随 随便 便 地 无 视 异 第 。 


11.2.8 ”异常 发 生 的 设计 原则 

那么 ， 针 对 异常 发 生 的 情况 ， 该 是 什么 样 的 设计 方针 呢 ? 

想 要 传达 “与 通常 不 同 的 状态 ”上 时， 首先 要 考虑 的 是 ， 如 何 判 断 该 异 沼 
情况 是 以 异常 传达 呢 ， 还 是 以 返回 值 传达 。 比 如 ， 对 哈 希 表 进 行 检 索 
时 ， 键 (key) 所 对 应 的 值 没 查 到 ， 就 不 返回 值 ， 这 是 某 种 意义 上 的 


异 前 情况 。 那 么 ， 这 个 时 候 ， 征 不 是 该 返回 异 营 昵 ? 当然 ， 不 存在 完 
全 正确 的 答案 ， 但 就 我 个 人 的 想法 而 言 ， 这 种 情况 不 应 当 返 回 异 第 4 


4 在 Python 中 ， 哈 希 键 找 不 到 时 返回 异常 。 


容易 想象 到 哈 希 表 里 键 不 存在 的 事 ， 我 不 认为 这 是 非得 要 通知 调用 者 
的 重大 的 异常 情况 。 除 非 如 采 不 明确 处 理 的 话 ， 程 序 束 会 异常 终止 ， 

则 对 于 这 些 没有 办 法 的 情况 ， 才 应 该 用 异常 。Ruby 中 ， 对 于 较 小 的 错 
误 ， 习惯 于 返回 NIL 值 ， 而 不 是 返回 异常 。 现 在 假设 ， 发 生 的 异 稼 情 
况 是 可 以 作为 异常 的 重大 事件 ， 那 么 是 应 当 使 用 图 11-13 中 Ruby 提供 
的 既 有 的 异常 类 呢 ， 还 是 制作 一 个 应 用 程序 专用 的 异 闻 类 呢 ? 


作 这 个 判断 的 基本 原则 是 ， 如 果 想 让 产生 的 异常 正好 与 某 个 既 有 异常 
类 的 动作 一 样 ， 束 使 用 这 个 既 有 类 。 这 目 然 不 会 产生 疑问。 让 人 烦恼 
的 是 那些 不 能 确信 和 是 否 完全 一 样 的 情况 ， 以 及 几乎 相同 但 又 想 追 加 某 
些 附 加 信息 的 情况 。 


关于 前 者 ， 处 理 异常 那 一 侧 ， 应 当 能 够 判断 有 没有 必要 区 分 既 有 的 相 
似 异 常 和 想 要 发 生 的 异 遂 。 分 类 太 细 ， 无 非 是 让 指定 变 得 复杂 。 最 好 
是 仅 仅 在 真 的 想 要 区 分 时 ， 才 定义 新 的 类 。 


天 于 后 者 ， 所 谓 想 要 追加 附加 信息 ， 那 肯定 是 预想 到 在 什么 地 方 会 对 
它 进 行 与 既 有 类 不 同 的 处 理 。 在 这 种 情况 下 ， 要 从 既 有 的 异常 类 派生 
一 个 子 类 ， 可 以 把 对 附加 信息 的 处 理 交 给 这 个 子 类 。 


在 既 有 的 异常 类 中 ，NameError 和 NoMethodError 就 是 这 种 关 
系 。NameError 是 在 找 不 到 指定 的 名 称 (变量 或 常数 等 ) 时 发 生 的 
异常 ， 而 NoMethodError 是 在 方法 调用 ， 找 不 到 方法 时 发 生 的 异 
常 ， 相 当 于 找 不 到 名 称 的 实体 (这 里 是 方法 ) ， 从 这 个 意义 上 与 
NameError 动作 相同 ， 但 只 在 方法 调用 时 才 存 在 的 参数 信息 也 想 保存 
到 异常 对 象 中 去 ， 所 以 做 了 一 个 子 类 。 


那么 ， 假 设 发 生 的 情况 与 既 有 的 异常 类 明显 不 同 ， 需 要 制作 一 个 新 的 
异常 。 这 种 情况 下 ， 必 须 考虑 以 下 几 点 。 


。 名称， 应 该 给 新 的 类 起 一 个 什么 样 的 名 字 。 

。 父 类 ;新 的 类 应 该 属于 哪 一 个 异常 类 的 子 类 。 

。 生 成 方法 : 应 该 如 何 初始 化 新 的 类 实例 。 
现在 进行 逐一 分 析 吧 。 
首先 ， 关 于 名 称 ， 在 异常 类 的 末尾 加 Error ， 是 Ruby 的 习惯 。 如 果 


没有 特别 的 理由 ， 为 了 明确 表示 该 类 是 异 汕 类， 还 是 遵 从 习惯 的 好 。 
既 有 的 异 遂 类 中 ,不 以 Error 结尾 的 有 : 


。 Exception 

。 ErrnNno: :EXXX 

。 SignalException 与 Interrupt 

。 SystemExit 

Exception 是 所 有 类 的 根 类 ， 为 了 表示 不 能 在 rescue 万 中 随便 使 
用 ,没有 附加 Error 。Errno 模块 下 定义 的 系统 调用 的 异常 ， 则 是 
为 了 苯 重 所 谓 POSIX 错误 代码 的 习惯 ， 而 没有 附加 Error 。 


最 后 ， 关 于 SignalException 、Interrupt 和 SystemExit 这 
三 个 ， 虽 然 是 利用 异常 这 种 机 制 ， 与 其 说 是 处 理 异常 情况 ， 不 如 说 中 
断 执 行 的 性 质 更 强 一 些 。 新 制作 的 类 ， 只 要 不 是 这 种 特殊 的 情况 ， 起 
名 字 以 Error 结尾 应 该 没什么 问题 吧 。 


那么 ， 定 义 一 个 异常 类 吧 。 图 11-15 显示 了 生成 异常 类 的 两 个 方法 。 
11-15a 是 标准 异常 类 的 生成 方法 。 图 11-15b 是 生成 一 个 异常 对 象 ， 


然后 传递 给 raise 语句 。 


(a) 标准 异常 类 定义 (如 果 仅仅 是 想 区 


class FooError < StandardError 
end 


(b) 附加 消息 以 外 的 信息 


class BarError < StandardError -定义 ijnitialize 方法 
def initialize (mesg，info) < 以 参数 的 形式 追加 附加 信息 
@info = info “信息 赋 给 类 实例 变量 
super (mesg) “初始 化 消息 
d 


图 11-15 异常 类 定义 


最 后 ， 讲 解 一 下 产生 异常 的 两 个 原则 。 第 1 个 是 关于 异步 异常 。 异 步 
异常 是 指 由 Thread.raise 方法 从 线程 外 部 生成 的 异常 。 语 言 本 号 
虽然 提供 了 这 种 功能 ， 有 这 么 个 名 字 ， 但 异步 异常 的 基本 原则 是 不 要 
使 用 异步 异常 。 


在 预想 外 的 时 机 发 生 的 异步 异常 ， 处 理 起 来 非常 困难 。 给 异步 异常 编 
写 异 币 安 全 的 方法 ， 几 乎 是 不 可 能 的 。 从 我 个 人 经 验 来 讲 ， 没 有 一 次 
使 用 异步 异 间 而 不 后 悔 的 。 


产生 有 异常 的 第 2 个 原则 是 文档 化 。 为 了 进行 合适 的 异常 处 理 ， 什 么 样 
的 方法 ,产生 了 什么 样 的 异 第 ， 这 方面 的 知识 是 不 可 或 缺 的 。 不 同 于 
Java，Ruby 中 没有 受 探 异 汕 ， 哪 种 方法 可 能 产生 哪 种 异 前 ， 有 必要 清 
楚 庄 细 地 写成 文档 。 

异 单 仅 仅 是 对 应 异常 情况 ， 平 党 使 用 中 不 知 不 党 号 会 漏 挥 。 但 为 了 生 


产 高 可 靠 性 的 软件 ， 愉 好 是 那些 平常 不 怎么 出 现 的 异 首 情 况 的 处 理 ， 
才 显 得 尤为 重要 。 


* * * 


本 节 介 绍 了 Ruby 等 多 种 语言 所 具有 的 异常 处 理 功 能 。 异 党 处 理 虽 然 
非常 方便 ， 但 处 理 异 常情 况 有 几 个 需要 注意 的 地 方 。 按 照 这 次 所 学 的 


规则 ， 请 实施 更 加 安全 的 异 第 处理。 
安全 对 策 的 变迁 


很 久 以 前 ， 计 算 机 不 存在 安全 性 问题 。 当 然 ， 软 件 的 程序 错误 以 前 
忠 存 在 。 明 到 程序 错误 ， 程 序 虽 然 也 异 第 终止 ， 但 为 难 的 只 十 软件 
使 用 者 本 人 ， 这 算 不 上 安全 问题 。 


后 来 ， 计 算 机 通过 网 络 连接 起 来 ， 安 全 问题 一 点 一 点 地 被 意识 到 。 
在 20 世纪 70 年 代 麻 省 理工 学 院 的 人 工 智能 实验 室 中 ， 流 行 通 过 网 
络 在 别人 的 终端 上 玩 恶作剧 ， 直 到 现在 还 留 有 记录 ， 但 也 只 是 让 键 
盘 在 一 段 时 间 内 不 起 作用 ， 或 是 在 画面 上 盾 满 文字 ， 虽 然 也 有 点 让 
人 讨厌 ， 但 顶 多 也 就 是 闹 着 玩 那 种 水 平 。 


然而 ， 从 80 年 代 开 始 就 已 经 不 再 是 恶作剧 水 平 了 。1988 年 ， 计 算 

机 通过 互联 网 互相 连接 起 来 ， 于 是 ， 莫 里 斯 蠕虫 程序 也 开始 在 互联 

网 上 蔓延 开 来 。 这 种 蠕虫 通过 攻击 程序 的 几 个 程序 错误 而 得 以 扩 

散 ， 又 因为 软件 设计 上 的 一 些 人 缺陷， 蠕虫 以 爆炸 性 的 态势 进行 传 

播 ， 结 果 计 算 机 由 于 负 信 过 重 而 导致 服务 停止 ， 现 在 这 称 为 DoS 
(Denial of Service) 攻击 。 


当前 ， 儿 乎 各 种 程序 都 有 安全 问题 。 互 联网 上 的 异常 输入 ， 从 外 部 
读 取 的 数据 被 暗中 的 网， 诸如 此 类 导致 安全 问题 的 原因 ， 实 在 是 太 
多 了 让 且 生变 但 从 好 过 (和 * 


完全 消除 安全 问题 是 不 可 能 的 ， 只 要 还 有 那么 多 问题 ， 完 全 无 视 也 
古 不 现实 的 。 但 是 ， 有 操作 系统 和 编程 语言 等 克 层 框 保 的 支持 ， 我 
想 这 是 否 也 减轻 了 点 程序 员 的 负担 呢 ? Ruby 由 安全 级 别 完 成 数据 检 
查 的 功能 束 吓 这 样 的 等 试 之 一 。 


第 12 章 关于 时 间 的 处 理 
12.1 用 程序 处 理 时 刻 与 时 间 


时 间 古 我 们 日 常生 活 的 一 部 分 。 天 腕 了 ， 上 胜 开 眼睛 ， 吃 早饭 ， 去 公 
司 。 这 样 的 生活 ， 时 时 刻 刻 都 在 市 走 我 们 的 时 间 。 但 是 ， 时 间 里 隐藏 
着 比 我 们 的 想象 要 复 洒 得 多 的 因素 。 


12.1.1 时 差 与 时 区 


在 日 本 ， 当 太阳 公公 升 起 来 的 时 候 ， 纽 约 却 是 深 更 半夜 。 国 家 和 地 域 
不 同 ， 此 刻 的 时 间 也 不 相同 ， 这 称 为 时 差 。 有 海外 旅行 经 验 的 人 ， 肯 
定 体 验 过 所 到 的 国家 与 日 本 之 间 的 时 间 差 异 。 


束 古 在 日 本 国内 ， 北 海道 和 东 夭 的 日 出 时 间 也 古 有 很 大 差别 的 。 但 随 
着 地 方 的 变化 ， 时 间 有 是 渐变 的 ， 这 成 为 一 件 很 及 烦 的 事 。 所 以 人 们 丈 
根据 国家 和 地 区 ， 作 某 种 统一 性 的 规定 ， 划 分 出 时 区 。 大 的 国家 ， 在 
国内 就 有 时 差 。 糯 国 就 有 6 个 时 区 〈 东 部、 中部、 山区 、 西 部 、 夏 威 
夷 以 及 阿拉 斯 加 ) 。 


世界 上 时 区 的 原点 位 置 ， 在 英国 伦敦 格林 尼 治 天 文 台 。 以 前 ， 以 此 为 
基准 的 时 间 称 为 格林 尼 治 标准 时 间 (Greenwich Mean Time，GMT) 。 
最 近 ， 好 像 * 世 界 协调 时 间 ”(Coordinated Universal Time，UTC) 这 个 
叫 法 渐渐 变 成 主流 。 


因为 日 本 是 在 英国 以 东 ， 所 以 日 本 时 间 比 英国 早 。 日 本 时 间 比 UTC 早 
9 个 小 时 ， 所 以 用 +0900 表示 。 时 区 由 行政 区 划 决 定 ， 不 能 根据 计算 
求 得 。 烦 琐 的 是 ， 还 存在 与 UTC 的 时 间 差 不 是 整 小 时 的 时 区 ， 比 如 尼 
泊 尔 (+0545) 和 印度 (+0530) 。 


12.1.2 ”世界 协调 时 间 


格林 尼 治 标准 时 间 与 国际 协调 时 间 的 区 别 ， 不 仅仅 是 名 称 。 格 林 尼 治 
标准 时 间 是 通过 观察 地 球 旋转 来 计算 ， 而 国际 协调 时 间 是 根据 原子 时 
钟 来 计算 《从 铭 原子 的 振动 数 计算 时 间 ) 。 


但 是 ， 地 球 的 旋转 要 受到 其 他 天 体 的 万 有 引力 的 影响 ， 还 有 地 表 物 体 
的 移动 ， 特 别 是 潮汐 等 各 种 各 样 因素 的 影响 ， 会 产生 仿 差 。 而 不 受 这 
些 因素 影响 的 原子 时 钟 的 时 间 ， 为 了 与 实际 的 地 球 旋转 相 吻 合 ， 有 时 
会 插入 图 秒 ， 使 这 两 个 时 间 的 差 保 持 在 0.9 秒 以 内 '。 过 去 40 年 间 ， 
共 插入 了 15 次 国 秒 。 


1 从 原理 上 说 ， 删 除 秒 也 是 可 能 的 ， 但 目前 为 止 没 有 删除 过 秒 。 好 像 地 球 的 自转 在 逐渐 变 


说 起 Coordinated Universal Time 的 缩写 ， 为 什么 会 是 UTC 呢 ? 大 概 是 
为 了 避免 各 语言 语序 的 不 同 (英语 是 CUT; 法 语 是 TUC，Temps 
Universel Coordonne; 意大利 语 是 TCU ，Tempo Coordinato 

Universale; 等 等 ) ， 统 一 采用 了 这 种 语序 。 


12.1.3 ”夏令 时 (DST) 


还 有 ， 成 为 问题 的 夏令 时 。 这 是 因为 到 了 夏天 ， 日 照 时 间 变 长 ， 太 阳 
出 来 了 还 在 睡 ， 太 浪费 。 将 时 间 错 开 以 有 效 利用 珍贵 的 日 照 时 间 ， 有 夏 
令 时 枫 是 基于 这 种 想法 。 呼 吁 要 节省 能 源 的 今天 ， 日 本 也 要 导入 夏令 
时 的 法 案 屡 屡 成 为 话题 。 


日 本 称 夏 令 时 ， 英 语 中 一 般 称 为 Daylight Saving Time (DST) 。 夏 令 
时 虽然 由 法 律 规定 ， 但 从 何 日 开始 到 何 日 为 止 适用 夏令 时 ， 因 国家 不 
同 而 不 同 。 比 如 美国 是 从 3 月 的 第 2 个 星期 日 开始 到 11 月 的 第 1 个 星 
期 日 为 止 适用 夏令 时 。 


虽说 是 “夏令 时 ”， 但 却 不 像 大 家 想 的 那样 只 适用 夏季 。 在 美国 ，2006 
年 以 前 ， 夏 令 时 是 4 一 10 月 ， 现 在 又 延长 了 ， 已 经 超过 半年 了 。 让 人 
觉得 ， 夏 令 时 反而 成 了 主流 。 
基本 规则 说 起 来 很 简单 ， 一 定期 间 内 时 钟 拨 快 一 小 时 。 但 实际 编程 的 
时 候 ， 时 间 切 换 就 成 了 问题 。 


导入 了 夏令 时 ， 春 秋 两 回 该 如 何 调整 时 钟 ， 实 际 来 看 一 看 吧 (参见 图 
12-1) 。 作 为 例子 ， 图 12-1 显示 了 2008 年 美国 东部 时 间 (EST) 与 美 
国 东部 夏令 时 (EDT) 之 间 的 切换 。 


01:00 03:00 04:00 
美国 东部 时 间 (EST) 一 | 
美国 东部 夏令 时 (EDT) | 


01:00 01:00 02 :00 
美国 东部 时 间 (EST) | 
美国 东部 夏令 时 (EDT) RE 


图 12-1 夏令 时 的 开始 与 结束 


夏令 时 开始 那 一 天 ， 次 晨 2 点 没有 了 “。 标 准时 间 从 次 晨 1 点 59 分 直接 
跳 到 3 点 ， 时 钟 整 早 了 一 个 小 时 。 

反之 ， 结 束 那 一 天 ， 夏 令 时 的 凑 晨 工 点 的 下 一 小 时 是 标准 时 间 的 凌晨 
1 点， 这 样 时 钟 束 慢 了 一 个 小 时 。 美 国 的 夏令 时 切换 时 间 坪 次 晨 2 
点 ， 但 各 个 国家 的 法 律 规定 不 一 样 。 规 定 凌晨 1 点 的 国家 也 有 (欧洲 
各 国 ) ， 规 定 午 夜 0 点 的 国家 也 有 (巴西 ) 。 

这 可 以 亲眼 确认 一 下 。Linux 中 ， 通 过 一 个 环境 变量 来 设 定时 区 ， 将 
环境 变量 TZ 设置 为 表示 时 区 的 字符 串 丈 行 了 。 将 时 区 强制 设 定 为 美 
国 东部 时 间 吧 。 


% export TZ=US/Eastern 


这 样 就 成 了 美国 东部 时 间 (纽约 等 地 ) 


在 这 种 状 态 下 运行 一 个 简单 的 程序 (参见 图 12-2) ， 可 以 体验 一 下 
时 区 的 移动 。 


# 2008-03-09 (3 月 第 2 个 星期 日 ) 


W200 3 7 200 [20087 E22] ach do |date| 
t = Time.local (*date) 


4.times do 


Sak 
# 显示 1 小 时 后 的 时 刻 
tor 600Gg 


Sun Mar 23°00:00:00%+0900°2008 
Sun Mar 2300800°00 +090002008 
Sun Mar 23 02:00:00 +0900 2008 
Sun Mar 23 03:00:00 +0900 2008 


Sun Nov 02 00:00:00 +0900 2008 
Sun Nov 02 01:00:00 +0900 2008 
SUunNoy 02°02:00:00 70900 2008 
Sun Nov 02 03:00:00 +0900 2008 


12-2 夏令 时 移行 显示 程序 


我 个 人 经 历 过 2007 年 11 月 在 美国 北 卡罗来纳 州 举行 的 RubyConf 
(Ruby 会 议 ) 的 最 后 一 天 和 2008 年 3 月 在 捷克 的 布拉格 举行 的 
EuRuKo 的 第 二 天 ， 正 好 都 是 夏令 时 的 切换 时 间 。 两 个 会 议 的 主持 人 
在 前 一 大， 都 反复 强调 “明天 切换 夏令 时 了 ， 不 要 搞 错 时 间 ”。 即便 如 
此 ， 和 起 记 调 整 手 表 时 间 的 人 还 是 比比 组 是 。 旅 馆 房 间 的 时 钟 当然 不 会 
目 动 调 整 ， 除 非特 别 注意 ， 而 一 不 留神 犯错 误 的 人 一 个 接 一 个 。 如 采 
是 电 波 时 钟 ， 还 会 目 动 调整 。 但 把 全 国 所 有 的 时 钟 一 下 子 全 弄 成 电波 
时 钟 也 是 不 可 能 的 。 


美国 大 多 数 的 州 和 欧洲 大 多 数 的 国家 ， 都 比 日 本 纬度 高 ， 冬 天 与 夏天 
的 日 照 时 间 差 别 相 当 大 。 在 这 样 的 地 域 ， 实 行 夏令 时 还 是 有 它 的 好 处 
的 。 像 日 本 这 种 低 纬度 国家 ， 实 行 夏令 时 并 没 市 来 什么 利益 ， 反 而 引 
起 生活 的 变化 和 程序 的 修改 ， 全 十 成 本 。 实 际 上 ， 实 行 夏令 时 的 都 以 
美国 和 欧洲 为 主 ， 日 本 周边 的 中 国 、 昔 国 等 也 没有 实行 。 


说 起 来 也 是 很 久 以 前 的 事 了 ，Ruby 1.4.4 的 时 候 (2000 年 左右 ) ， 处 
理 夏 令 时 曾经 有 过 一 个 程序 错误 。 那 个 时 候 ，Ruby 总 算 开 始 有 欧洲 用 
户 不 断 加 入 ， 从 他 们 的 一 个 报告 里 ， 我 发 觉 了 这 个 程序 错误 。 这 是 一 


个 典型 的 边界 条 件 错 误 ， 夏 令 时 刚 开始 和 刚 结束 的 几 个 小 时 ， 时 刻 错 
了 。 由 于 日 本 没有 夏令 时 ， 我 目 己 不 能 理解 问题 ， 所 以 修正 这 个 程序 
错误 人 论 费 了 好 大 劲 儿 。 从 这 次 的 教训 束 可 以 知道 ， 轻 易 地 导入 夏令 
时 ， 会 导致 软件 问题 频 发 ， 最 坏 的 情况 会 成 为 社会 问题 ， 即 便 不 出 现 
最 坏 情 况 ， 也 会 让 众多 上 默默无闻 的 程序 员 和 怒气 天 声 ， 贸 然 实 行 夏令 时 
的 做 法 ， 我 实在 古 不 敢 三 同 。 


日 本 国内 本 来 没有 时 差 ， 也 没有 上 夏 令 时 ， 在 时 间 运 营 方 面 古 一 个 六 福 
的 国家 ， 特 意 导 入 夏令 时 ， 是 不 是 有 意 让 事 仿 复杂 化 呢 ? 市 省 能 源 应 
当 采 用 别 的 手段 吧 。 


12.1.4” 改 历 


我 们 使 用 的 日 历 ， 古 格 里 高 利 历 《中 国 称 公历 ) 。4 的 倍数 的 年 是 比 
平年 多 一 天 的 疾 年 。 依 靠 这 个 来 补正 地 球 公转 周期 和 日 历 的 偏 靶 。 但 
征 ， 格 里 高 利 历 并 不 是 目 证 以 来 加 使 用 的 ， 过 去 曾 使 用 尤 利 马 期 历 。 
在 欧洲 〈 及 其 殖民 地 ) ， 过 去 几 百 年 间 ， 分 别 从 尤 利 马 斯 历 (旧历 ) 
切换 到 了 格 里 高 利 历 (新 历 )  ， 这 称 为 改 历 。 


正确 来 讲 ， 是 4 的 倍数 , “ 除 掉 不 是 400 的 倍数 而 只 是 100 的 倍数 ”的 年 。 所 以 ，2008 年 是 
闽 年 (4 的 倍数 ) ， 但 2100 年 (100 的 倍数 ) 不 是 闫 年 ，2000 年 (400 的 倍数 ) 是 姜 年 。 


[BS 


比如 英国 于 1752 年 9 月 改 历 。UNIX 的 cal 命令 对 应 着 英国 的 改 

历 ， 实 际 看 一 看 吧 。 用 cal 命令 显示 1752 年 9 月 就 能 知道 ， 从 2 日 
到 14 日 之 间 的 日 期 有 跳跃 。 这 是 由 改 历 ， 也 就 是 日 历 切换 所 造成 的 日 
期 跳跃 。 尤 利 马 斯 历 和 格 里 高 利 历 差 了 那么 多 。 


主要 国家 的 日 历 切 换 如 表 12-1 所 示 。 考 虑 到 最 早 的 是 意大利 从 16 世 
纪 开 始 改 历 ， 到 了 20 世纪 还 有 没 改 历 的 国家 ， 这 种 对 比 真 让 人 惊异 。 


表 12-1 改 历 的 日 期 


Erp 


希腊 1924 年 03 月 23 日 


要 和 


12.1.5 日 期 与 时 间 的 类 


Ruby 中 ， 表 示 日 期 与 时 间 的 类 有 很 多 。 像 下 面 这 样 ， 各 目的 功能 及 限 
制 均 有 不 同 ， 有 必要 按 目 的 分 别 使 用 。 


Time 类 


表示 日 常 所 用 时 间 的 类 。 是 用 C 实现 的 内 磐 类 ， 使 用 与 POSIX 的 时 
间 相关 的 API 来 实现 。 虽 然 也 对 应 时 区 ， 但 一 个 程序 中 ， 只 能 使 用 本 
地 时 间 和 国际 协调 时 间 (UTC) 两 个 时 区 。 能 够 表示 的 时 间 范 围 有 限 
制 (1970 年 1 月 1 日 到 2038 年 1 月 19 日 ) 。 


Date 类 


表示 不 含 时 刻 的 日 期 的 类 。 使 用 时 ， 需 要 将 date 库 加 载 (require) 进 
来 。 与 Time 类 不 同 ， 其 特征 征 能 够 表示 的 范围 事实 上 没有 限制 。 改 
历 也 有 对 应 。 


DateTime 类 


Date 类 附加 上 时 间 信 息 的 类 。 能 表示 时 间 ， 而 且 没 有 范围 限制 ， 功 
能 上 最 强 ， 但 因为 是 用 Ruby 实 现 的 ， 所 以 其 性 能 有 些 让 人 担忧 。 
DateTime 类 说 到 底 还 是 在 Date 类 里 加 入 时 刻 信息 ， 与 Time 类 的 方 
法 没有 互 换 性 ， 这 一 点 需要 注意 。 利 用 DateTime 类 ， 需 要 将 date 
库 加 载 进来 。 


如 果 是 日 常 使 用 束 用 Time 类 ， 要 处 理 遥 远 的 过 去 及 未 来 的 时 刻 ， 用 
DateTime 类 比较 好 。 


Time 类 


Time 类 的 概要 如 表 12-2 所 示 。Ruby 的 Time 对 象 ， 以 POSIX 的 时 
间 画 数 为 基础 而 设计 。POSIX 的 时 间 画 数 具 有 以 下 特征 。 


表 12-2 Time 类 的 主要 方法 
类 方法 
Time.at (time[,usec]) 至 过 的 秒 数 生成 Time 对 象 


Time.gm(year[,mon, day,hour,min,sec]) E 成 Time 对 象 (世界 协调 时 间 ) 


Time.utc(year[,mon, day,hout,min, sec]) 


Time.local(year[,mon, day,hout,min, sec,usec a NI 
: : (y [ .Qay, SL / ]) 成 Time 对 象 € 当 
Time.mktime(year[,mon,day,hout,min, sec,usec]) 


当 于 现在 时 刻 的 Time 对 象 


解析 字符 市， 生成 一 个 Tine 对 象 。 需 要 将 
time 库 加 载 进来 


Time.iso8601(str) 

Time.jisx0301(str) 

Time.rfc822(str) 四 特定 的 格式 ， 从 字符 串 生 成 Time 对 
Time.rfc2822(str) 象 。 需 要 将 time 库 加 载 进来 
Time.rfc3329(str) 

Time.xmlschemal(str) 


返回 n 秒 后 的 Time 对 象 
以 秒 数 返 回 两 个 时 刻 间 的 差 (Float ) 


返回 n 秒 前 的 Time 对 象 


time > time 

time >= time 

time < time 比较 时 刻 
time <= time 

time <=> time 


返回 表示 时 刻 的 字符 串 


反 
以 后 用 当地 时 间 来 表示 时 刻 


世界 协调 时 间 来 表示 时 刻 


回 设 定 为 世界 协调 时 间 的 新 的 Time 对 象 
time .gmt_offset 以 秒 为 单位 返回 与 世界 协调 时 间 的 时 差 


time.utc_offset 


time .gmtoff 


sec 
min 
hour 
mday 
9 返回 time 的 各 
month 
yday 
year 
zone 


time.isdst 


time.strftime(fmt) 


time.to_f 


time.to_ i 


time.tv_sec 


ne .tv_nsec 、 寸 刻 的 纳 秘 避 分 [1.9] 
time.nsec 


time.tv_usec 
time.usec 


time.monday? 

time.tuesday? 

time.wednesday? 

time. thursday? time 是 一 周 中 的 该 日 时 ， 返 
time.friday? 

time.saturday? 

time.sunday? 


。 以 目 某 一 固定 时 间 epoch (世界 协调 时 间 1970 年 1 月 1 日 凑 晨 0 
时 ) 起 经 过 的 秒 数 表示 时 刻 。 每 次 以 此 为 基础 计算 日 期 《年 月 日 


oO 


等 ) 


。 不管 是 世界 协调 时 间 还 是 当地 时 间 (ocal time) ， 都 可 以 处 理 。 
当地 时 间 的 时 区 可 以 由 环境 变量 来 设 定 ， 但 一 个 进程 中 不 能 在 多 
个 时 区 中 切换 。 


Ruby 及 UNIX 的 时 刻 模型 能 够 处 理 当地 时 间 和 世界 协调 时 间 。 反 过 来 
说 ， 处 于 这 两 个 时 区 以 外 吏 不 能 简单 处 理 。 殉 像 图 12-3 中 这 种 感觉 。 


2008 年 08 月 08 日 正午 (日 本 时 间 ) 


喷 


Time.1local(2008,08,08,12) 


结果 => Fri Aug 08 12:00:00 +0900 2008 


2008 年 08 月 08 日 正午 (UTC) 
t2 = Time.gm(2008,08,08,12) 


# 结果 => Fri Aug 08 12:00:00 UTC 2008 


图 12-3 执行 Time 的 local/gm 方法 


Time 对 象 可 以 设 定 是 以 当地 时 间 表 示 时 刻 ， 还 是 以 世界 协调 时 间 表 
示 (参见 图 12-4) 。 


结 未 => Fri Aug 08 03:00:00 UTC 2008 


I 本 地 时 间 设 定 


RR => Fri Aug 08 12:00:00 +0900 2008 


图 12-4 gmtime 以 及 localtime 方法 的 执行 示例 


Linux 的 时 刻画 数 是 引用 环境 变量 TZ 来 决定 当地 时 间 的 ， 所 以 程序 通 
过 切换 环境 变量 ， 也 可 以 钢 强 使 用 多 个 时 区 。 


original tz = ENV["TZ"] 
ENV["TZ"] = "US/Eastern" 
p Time.now # 东 部 时 间 


ENV["TZ"] = original tz 


p Time.now # 当 地 时 间 


人 切换 环境 变量 的 副作用 很 大 (比如 说 线程 会 有 问题 ， 不 推荐 


Time 类 的 方法 中 ， 含 gm 或 gmt 的 太 多 了 ， 都 是 来 目 世界 协调 时 间 
使 用 之 前 的 格林 尼 治 标准 时 间 。Time 类 的 方法 名 是 以 UNIX 系列 时 
间 范 数 为 基础 的 ， 让 人 浮想 起 ， 原 来 UNIX 的 时 间 函 数 ， 在 确定 UTC 
名 称 以 前 束 有 了 。Ruby 中 追加 了 来 目 UTC 的 方法 别名 。 


Ruby 的 Time 对 象 ， 将 POSIX 的 时 刻画 数 与 结构 体 整 章 地 归结 大 
类 ， 非 第 便于 使 用 。 不 是 将 整数 值 解释 为 时 刻 ， 而 是 “时 刻 就 古 时 
刻 ” 的 处 理 方式 ， 这 是 很 可 贯 的 。 最 难 能 可 贯 的 是 ，Ruby 全 体 在 表示 
时 刻 的 部 分 中 都 用 Time 对 象 。 所 以 ， 


p File.mtime("ChangeLog") 


# => Tue JUL 08 15:04:07 +0900 2008 


能 明确 地 表示 成 时 间 。 如 果 像 *1215497047” 这 样 表示 成 秒 数 的 话 ， 直 
觉 上 看 不 出 这 是 什么 时 候 吧 。 


12.1.6 ”2038 年 问题 


虽然 Time 类 是 如 此 方便 的 一 个 好 类 ， 但 关于 时 间 ， 要 照顾 到 方 方 面 
四 弱点 的 。 说 来 说 去 ， 最 大 的 弱点 还 是 它 能 够 表示 的 时 间 苑 
韦 o 


不 仅 限 于 UNIX， 很 多 的 操作 系统 中 ， 都 是 以 过 去 某 个 时 点 开始 所 经 过 
时 间 来 表示 时 刻 的 。 与 人 们 习惯 的 以 年 月 日 的 组 合 来 表示 时 刻 形成 对 
照 。 在 UNIX 中 ， 过 去 某 个 时 点 是 指 1970 年 1 月 1 日 凌晨 0 时 (UTC) 。 


比如 Ruby 的 诞生 日 (1993 年 2 月 24 日 ) 的 日 本 时 间 中 午 ， 计 算 机 中 
以 730522800 这 个 数字 来 表示 。Ruby 中 可 以 用 以 下 代码 确认 。 


p Time.1local(1993,2,24,12,00).to i 
# => 730522800 


问题 是 ， 计 算 机 能 够 处 理 的 整数 ， 大 小 有 限制 。 如 果 系 统 的 整数 是 32 
位 〈 二 进 制 ) 带 符 号 整数 的 话 ， 能 够 表示 的 最 大 整数 是 2147483647， 
最 小 整数 是 ?2147483648。 虽然 看 上 去 是 21 亿 多 这 么 一 个 挺 大 的 数 ， 
实际 上 却 是 连 全 人 类 的 人 口 数 都 不 能 表示 的 很 小 的 数 。 如 果 用 秒 数 来 
数 这 么 一 个 并 不 很 大 的 数 ， 从 刚才 所 说 的 1970 年 1 月 1 日 凌晨 0 时 开 
2038 年 1 月 19 日 (星期 二 ) 3 时 14 分 7 秒 

UTC) 。 


结果 ，32 位 系统 中 的 Time 类 的 对 象 ， 只 能 表示 1970 年 1 月 1 日 到 
2038 年 1 月 19 日 的 范围 3。 也 就 是 说 ，1970 年 以 前 出 生 的 人 连 自己 
的 生日 都 不 能 表示 。 


3 这 是 秒 数 是 正 数 的 情况 。POSIX 标准 中 虽然 没有 明示 ， 使 用 负 秒 数 的 平台 也 很 多 ， 包 括 
Linux 在 内 的 这 种 平台 ， 过 去 的 时 间 可 以 表示 到 1902 年 12 月 。 


过 去 当然 是 一 个 重要 问题 ， 但 未 来 的 问题 则 更 为 严重 。 完 全 不 能 处 理 
2038 年 1 月 以 后 的 时 间 。 离 2038 年 虽然 还 有 30 年 ， 但 在 银行 贷款 的 计算 
等 情况 下 ，30 年 以 后 的 时 间 已 经 现实 性 地 慢 慢 迫 近 了 “。 如 果 完全 不 能 
进行 这 些 计算 的 话 ， 情 况 就 不 乐观 了 。 类 比 1999 年 左右 六 得 沸沸扬扬 
的 “2000 年 问题 *， 这 个 问题 有 时 被 称 作 “2038 年 问题 "。 


到 那 时 候 ， 是 不 是 所 有 操作 系统 都 变 成 64 位 了 ? 希望 是 那样 。 如 果 表 

示 时 刻 的 整数 变 成 64 位 了 ， 问 题 就 会 延 后 很 久 很 久 。 到 公元 

292277026596 年 12 月 4 日 (星期 日 ) 15 时 30 分 7 秒 (UTC) 为 止 都 
“会 有 问题 。 这 个 未 来 时 间 已 经 用 图 12-5 的 程序 确认 了 。 


Lo a 最 大 带 符号 的 64 位 整数 
last = (1<<63)-1 
puts Date.new3(1970,1,1)+{(last/ (24*60*60)) 
# => 292277026596-12-04 

p (last%(24*60*60)/3600) 公元 2922 亿 年 
# => 15 

p {last%(24*60*60)%3600/60) 
ht) 

p (last%(24*60*60)%3600%60) 
夺 => 7 


图 12-5”64 位 时 间 的 界限 


也 只 有 没有 限制 整数 大 小 的 Ruby 才能 这 样 轻松 地 计算 。 这 个 暂且 不 
说 了 ， 公 元 2922 亿 年 ， 有 点 超越 想象 了 。 和 希望 2038 年 之 前 计算 机 操 
作 系 统 都 能 够 转变 成 64 位 。 


12.1.7 DateTime 类 


相对 于 以 epoch ( 某 个 时 点 ) 开始 的 秒 数 来 管理 的 Time 类 ， 
DateTime 类 是 以 日 期 为 基础 计算 的 Date 类 ， 附 加 上 时 刻 信息 而 生 
成 的 。Date 类 以 日 为 单位 来 表示 〈 光 赁 这 一 点 就 有 24x60x60=86400 
倍 的 分 解 能 力 ) ， 而 且 用 Ruby 的 多 倍 长 整数 ， 事 实 上 能 够 处 理 无 限 的 
范围 。 与 Time 类 比 起 来 ，DateTime 的 不 同 点 在 于 API 与 时 区 。 


首先 是 API，DateTime 类 是 表示 日 期 的 Date 类 附加 上 时 刻 信息 。 
喝 里 虽 哑 再 重复 一 遍 ， 与 Time 类 没有 互 换 性 。 


其 次 是 时 区 ，DateTime 类 虽然 理解 与 UTC 的 时 差 ， 但 没有 时 区 的 
概念 。 做 一 个 新 的 DateTime 对 象 ， 默 认 值 是 生成 一 个 与 现在 UTC 
有 时 差 的 当地 时 间 的 DateTime 对 象 。 


使 用 DateTime 类 ， 需 要 将 date 库 加 载 进 来 。DateTime 类 的 概要 
示 于 表 12-3 中。 


表 12-3 DateTime 类 的 主要 方法 


DateTime.civil([year,mon,mday,hour,min,sec,offset, start]) 生 成 本 二 二 记 回 
DateTime.new( [year,mon,mday, hour,min, sec, offset, start]) 的 DateTime 对 象 


期 

上 夺 成 可 
DateTime.commercial([cwyear,cweek,cwday,hour,min,sec,offset,Sstart]) 二 成 于 商业 日 

期 的 pa E 

生成 术 


Time 对 象 


te 
Mi 
e 
oY a 


DateTime .now 生成 相当 于 现在 时 
刻 的 DateTime 对 象 
什 4 伍 
DateTime.ordinal([year,mon,mday,hour,min, sec,offset, start|]) es 
AT i | 
7 F 字 禾 申 片 员 
ee 
| 


定格 式 从 字符 
DateTime.strptime(str,fmt) 串 生 成 pateTime 对 


过 


DateTime.iso8601(str) 按 指定 格式 从 字符 
DateTime.jisx0301(str) 串 生 成 pateTime 对 


成 相当 于 尤 利 乌 
DateTime.jd([jd,hour,min, sec,offset, start]) 斯 日 期 的 DateTime 
对 象 


DateTime.rfc822(str) 象 ， 需要 将 


DateTime.rfc2822(str) date/format 库 加 


DateTime.rfc3339(str) 载 进来 
DateTime.xmlschema(str) 


datetime. 
datetime. 
datetime.hour 
datetime.mday 
datetime.day 
datetime.mon 


datetime.month 


datetime.yday 
datetime.year 
datetime.zone 


datetime.sec_ fraction 


datetime.new_ offset(offset) 


回 datetime 的 该 
N 


24) 或 +0900 这 
的 字符 串 


TON 


datetime.zone 


datetime.iso8601 
datetime.jisx0301 需要 将 
datetime.rfc3339 
datetime.xmlschema 


区 的 字 


回 将 datetime 术 


返 
式 化 后 的 字符 串 ， 


需 
date/format 库 加 
加 载 进来 


作为 使 用 Date 类 的 例子 ， 有 一 个 计算 天 数 的 程序 。 图 12-6 是 一 个 计 
算 从 Ruby 诞生 以 来 经 过 了 多 少 天 的 程序 。 


require 'date' 


# 今天 Ruby 诞 和 9 


EE 多 少 大 了 7 


ruby = DateTime.new(1993,2,24) 
today = DateTime.now 
printf "今天 Ruby 诞生 %d 天 \n", (today - ruby).to i 


[SS 


图 12-6 计算 Ruby 诞生 以 来 所 经 历时 间 的 程序 
输出 类 似 于 “今天 是 Ruby 诞生 的 第 5612 天 ”。 
12.1.8 Time 与 DateTime 的 相互 变换 


Time 与 DateTime 很 相似 ， 但 API 不 同 ， 不 能 使 用 Duck Typing 互 
相 替 换 。 

Ruby 1.9 中 ，Time 类 与 DateTime 类 分 别 追 加 了 to_time 方法 和 
to_datetime 方法 ， 使 用 这 些 方法 ， 可 以 把 对 象 的 类 统一 起 来 。 田 
外 ， 这 两 个 方法 在 Ruby on Rails 的 ActiveSupport 库 里 也 提供 ，Rails 
用 户 不 用 等 1.9 版 本 就 可 以 使 用 。 


米 米 米 


时 间 和 日 历 虽 然 大 家 每 天 都 接触 ， 但 实际 编 起 程序 来 ， 却 有 各 种 各 样 
不 为 人 知 的 细节 。Ruby 中 ， 有 了 Time 类 和 DateTime 类 ， 不 必 太 
钻研 这 些 细节 就 能 够 操作 有 时间。 
时 间 的 难点 
几乎 所 有 人 都 认为 时 间 很 价 单 ， 从 过 去 到 未 来 ， 永 不 停 县 一 直 在 流 
动 。 如 果 不 考 虑 宇宙 大 爆炸 之 前 有 没有 时 间 这 些 疑 难 问 题 ， 这 个 认 
识 基 本 是 事实 。 


ee ， 会 意外 地 发 现 有 很 多 疑难 问题 潜伏 在 
JJ 已 O 


首 和 介绍 “想当然 ”的 问题 。 不 久 以 前 有 “2000 年 问题 *”， 这 有 是 由 于 以 
公元 纪年 的 后 两 位 来 表示 年 ， 到 了 21 世 纪 ， 数 字 反 而 变 小 了 。 也 许 
当时 的 软件 开发 人 员 没 想到 那 时 开发 的 程序 居然 能 用 到 21 世 纪 吧 。 
21 世 纪 其 实 并 没有 想象 中 那么 遥远 。 说 实话 ， 本 来 以 为 21 世 纪 会 更 
加 发 达 一 些 呢 ， 可 现在 连 铁 臂 阿 童 木 都 还 没有 诞生 的 迹象 呢 。 


对 于 时 间 的 另 一 个 想当然 的 问题 ， 是 “2038 年 问题 ”。 正 文中 已 经 介 
绍 过 了 ， 为 了 表示 时 间 ， 使 用 从 某 一 原点 (1970 年 1 月 1 日 ) 开始 的 
秒 数 ， 结 果 令 人 意外 地 很 早 就 到 达 了 32 位 整数 的 极限 。 这 也 是 由 
于 “想当然 ”而 造成 的 问题 。 


还 有 , 日 历 也 是 一 个 磋 烦 的 问题 。 现 在 我 们 使 用 的 历法 ， 是 称 为 格 
里 高 利 历 的 太阳 历 ， 为 了 补正 地 球 的 自转 时 间 和 公转 时 间 的 偏差 ，4 
年 1 次 搞 一 个 366 天 的 半年 ， 但 这 又 有 一 点 补正 过 头 了 ， 于 是 100 年 里 
又 有 一 次 4 的 倍数 不 是 半年 的 年 ， 这 还 没完 ， (100 的 倍数 中 ) 400 
年 里 还 是 有 一 次 装 年 。 真 是 太太 类 了 。 而 且 ， 世 界 上 并 不 是 全 都 使 
用 同一 种 历法 。 伊 斯 兰 国 家 直到 现在 ， 还 在 使 用 以 月 亮 的 圆 缺 为 基 
准 的 太阴 历 。 历 史上 ， 历 法 被 政治 所 利用 的 事件 很 多 ， 古 罗马 星 带 
为 了 让 以 自己 姓名 命名 的 两 个 月 (July 与 August) 更 突出 ， 让 本 来 
意思 是 8 月 的 October 挪 到 了 10 月 。 


时 间 还 有 了 时差 的 问题 。 我 们 曾 试 图 让 Ruby 的 开发 人 员 集 中 起 来 ， 
开 一 次 网 上 会 议 ， 但 因为 大 家 分 别 住 在 日 本 、 美 国 以 及 欧洲 的 不 同 
地 方 ， 确 定 一 个 共同 的 时 间 都 很 费劲 。 海 外 旅行 时 ， 往 家 里 打 个 电 
话 也 很 犹豫 。 


仔细 想 想 这 些 ， 就 会 发 现 人 类 的 时 间 标 记 系 统 真 是 奇妙 。1 天 用 2 
组 12 个 小 时 表示 ，1 小 时 有 60 分 ，1 分 有 60 秒 ， 二 进 制 与 60 进 制 
人 
计算 。 


没 想 到 还 真有 人 这 么 决定 了 。 那 就 是 瑞士 的 斯 沃 琪 公司 所 提倡 的 新 
的 时 间 表 示 法 “斯 沃 琪 互联 网 时 间 ”。 将 /1000 天 定 为 一 个 单位 ， 称 
为 比 托 。1 比 托 相 当 于 1 分 26.4 秒 。 时 间 用 @517 这 样 的 方式 来 表 
示 。 这 表示 一 天 开始 后 ， 过 了 42600.8 秒 。 互 联网 时 间 没 有 时 差 ， 

一 天 的 开始 由 斯 沃 琪 公司 所 在 地 的 瑞士 时 间 来 决定 。 


这 真是 一 个 大 胆 的 时 间 系 统 ， 但 也 许 太 大 胆 了 ， 很 难 扎 下 根来 让 大 


家 接受 。 


第 13 章 关于 数据 的 持久 化 


13.1 持久 化 数据 的 方法 


Ruby 程序 中 的 对 象 ， 与 现实 世界 中 的 “ 物 ” 不 同 ， 只 存在 于 计算 机 的 内 
存 中 。 所 以 ， 一旦 程序 的 执行 完成 了 ， 内 存 束 会 被 回收 ， 对 象 也 随 之 
. 束 需 要 把 必要 的 数据 保存 在 文件 里 ， 以 便 下 次 还 可 
、 读 


但 是 ， 还 有 这 么 一 个 世界 ， 数 据 不 随 进 程 一 起 消失 。 比 如 ， 应 该 称 为 
面向 对 象 鼻祖 的 Smalltalk 程序 。Smalltalk 中 ， 每 次 执行 结束 时 ， 程 序 
的 执行 状态 都 被 保存 在 称 为 “映像 "的 文件 里 ， 下 次 执行 时 ， 能 够 恢复 
成 与 上 次 完全 相同 的 对 象 状态 。 


这 样 的 话 ， 保 存 到 文件 的 概念 就 没什么 必要 了 ， 只 要 做 一 个 普通 的 对 
象 ， 然 后 就 原封 不 动 地 “持久 化 ”。 也 就 是 说 ， 所 有 的 对 象 都 具有 超越 
进程 的 寿命 。 这 是 一 个 理想 的 世界 ， 但 反 过 来 讲 ， 则 是 做 了 一 个 封闭 
于 Smalltalk 的 世界 。 如 果 系 统 全 都 是 由 Smalltalk 构成 的 倒 还 好 ， 但 
如 果 想 与 其 他 系统 协作 的 话 ， 就 会 有 许多 许多 的 麻烦 。 


我 们 住 在 使 用 Ruby 的 世界 里 ， 这 个 世界 与 Smallltalk 不 同 ， 还 是 有 必 
要 将 数据 (对 象 ， 保存 到 文件 里 。“ 将 数据 保存 到 文件 里 ”， 这 种 说 法 
很 生硬 ， 于 是 就 套用 一 个 说 法 ， 称 之 为 “持久 化 ”。 


13.1.1 保存 文本 


如 果 保 存 的 数据 是 文本 的 话 ， 问 题 就 简单 了 。Linux 等 UNIX 系列 的 

操作 系统 中 ， 能 够 用 文本 表示 的 东西 (字符 串 ) 可 以 简单 地 放 到 文件 
里 。Ruby 的 I0 类 (及 其 子 类 File 类 ) 是 实现 文本 输入 输出 功能 的 
类 ， 比 如 将 hello wor1d 字符 串 写 入 到 文件 ， 再 读 出 的 程序 示 于 图 
13-1。 


data = "hello world\n" 
# 往 当前 目录 的 data 文件 里 写 入 


open("./data", "w" ){|f| 
f.write data 


} 

# 从 data 文件 中 读 出 

open("./data","r"){|f| 
data = f.read 


} 


图 13-1 文本 输入 输出 程序 的 示例 


本 来 文本 处 理 区 是 Ruby 这 种 脚本 语言 的 主要 目的 之 一 ， 所 以 Ruby 对 
这 样 的 处 理 很 拿手 。 


13.1.2 ”变换 成 文本 的 Marshal 


那么 ， 如 果 写 入 或 读 取 的 数据 不 是 单纯 的 字符 串 ， 而 是 数组 或 对 象 的 
情况 ， 那 么 该 怎么 办 呢 ? 


正如 刚才 所 说 的 ，UNIX 系列 操作 系统 中 ， 文 件 可 以 看 做 是 文本 数据 

的 容器 。Windows 中 也 一 样 。 就 是 说 ， 将 对 象 按 一 定 的 方式 变换 为 文 

本 ， 就 可 以 保存 到 文件 中 去 。 这 样 的 对 象 文 本 化 ， 就 称 为 serialize 
(序列 化 ) ， 或 是 marshal ( 封 送 处 理 ) 。 


根据 字典 ，serialize 是 序列 化 ， 按 顺序 排列 的 意思 ， 表 示 将 对 象 置换 
2 。 另外 ，marshal 意思 十 将 军队 整 列 ， 与 serialize 意思 是 


Java 中 常 使 用 serialize 这 个 词 ， 而 Ruby 中 多 称 为 marshal 。serialize 这 
个 词 在 并 行 处 理 中 用 于 完全 不 同 的 意思 。 为 了 不 至 于 引起 误解 ， 这 里 
使 用 marshal 这 个 词 吧 。 


marshal 比 表 面 上 看 起 来 要 碳 烦 。 对 象 一 般 售 有 对 其 他 对 和 象 的 引用。 由 
J 多 个 对 象 连接 起 来 ， 有 时 多 个 对 象 引用 一 个 对 象 (参见 图 
13-2) 。 


从 各 处 被 参照 
的 对 象 


9-6 


图 13-2 对象 的 marshal 较 难 的 例子 


单纯 将 对 象 的 引用 都 保存 起 来 的 做 法 ， 会 引起 多 次 引用 的 对 象 被 保存 
多 次 的 问题 ， 更 有 其 者， 在 循环 引用 的 时 候 ， 有 可 能 陷于 无 限 循环 。 


13.1.3 ”使 用 Marshal 模 块 

标准 Ruby 中 ， 崩 入 了 marshal 功能 ， 这 就 是 Marshal 模块 。 

Marshal 模块 中 ， 提 供 了 几乎 能 将 全 部 Ruby 对 象 变 为 字 节 串 的 方法 
dump ， 以 及 将 字 市 串 恢 复 成 原 对 象 的 复制 ) 的 1oad 方法 (参见 
表 13-1) 。 

表 13-1 MiniDB 的 类 方法 


. 
将 object 与 它 所 引用 的 对 象 变换 为 字 节 串 


以 dump 变换 而 得 的 字 节 串 《字符 串 ) ， 或 保存 这 种 字 节 串 
load(from [,proc]) I 返回 与 原来 (dump 前 ) 的 对 象 状态 术 
本 上 次 


简单 说 明 一 下 dump 和 load 的 使 用 方法 吧 。 


dump 的 第 2 个 参数 指定 为 TI0 对 象 时 ， 束 把 变换 结果 写 到 该 I0 对 

象 。 否 则 ， 返 回 变 换 后 的 字 节 种。 如 果 指 定 了 整数 Limit ， 那 么 在 逐 
层 深 入 处 理 被 引用 的 对 象 时 ， 遇 到 对 象 的 连锁 深度 比 Limit 还 大 的 情 
况 ， 束 产生 异 篆 。 


load 的 第 2 个 参数 指定 为 处 理 对 象 proc 的 时 候 ， 对 复原 的 各 个 对 
象 都 要 调用 proc 。 


使 用 Marshal ， 可 以 把 复杂 结构 的 数据 向 单 地 写 入 文件 。 当 然 ， 像 图 
13-2 中 所 举 的 例子 那样 ， 同 一 个 对 象 多 次 引用 ， 以 及 循环 引用 的 情况 
也 都 能 应 对 。 


因为 Marshal 知道 基本 的 对 象 构造 ， 所 以 Marshal 模块 的 dump 方法 会 
0 。 像 图 13-3a 那样 ， 使 用 起 来 特 
别 简 单 。 


这 里 obj 对 象 以 及 它 所 引用 的 全 部 对 象 被 变换 为 文本 ， 赋 值 给 data 
" 直接 输出 到 文件 时 ， 程 序 如 图 13-3b 所 示 。 这 种 情况 下 ， 变 换 结 果 
不 存 入 内 存 而 是 直接 写 入 文件 ， 效 率 有 明显 提高 。 


读 取 dump 转 储 下 来 的 数据 ， 程 序 如 图 13-3c 所 示 。objz2 被 赋值 为 原 
对 象 的 一 个 副本 。 从 文件 读 取 时 ， 程 序 如 网 13-3d 所 示 。 


(a) 变换 成 字符 串 
data = Marshal.dump(obj ) 


(b) 输出 到 文件 


f = open("/tmp/data", "w") 
Marshal.dump(obj, f) 


(c) 读 取 


obj2 = Marshal.1load(data) 


4d) 从 文件 中 读 取 
f = open("/tmp/data", "r") 
obj2 = Marshal.1load(f) 


(e) 深 复 制 
obj2 = Marshal. load(Marshal.dump(obj ) ) 


图 13-3 ”Marshal 的 使 用 方法 
像 这 样 使 用 Marshal， 对 象 可 以 简单 地 保存 到 文件 里 。 


13.1.4 复制 有 两 种 方式 
使 用 Marshal， 可 以 完成 对 象 的 深 复 制 (deep copy) 


复制 对 象 的 时 候 ， 通 常 使 用 clone 方法 。 这 种 情况 下 ， 只 复制 直接 对 
象 ， 引 用 的 对 象 不 复制 。 这 称 为 浅 复制 (shallow copy) 


而 深 复 制 连同 引用 对 象 也 一 起 进行 递归 复制 。 使 用 Marshal 可 以 像 图 
13-3e 那样 实现 深 复 制 。 


13.1.5 ”仔细 看 Marshal 的 格式 


Marshal 用 二 进 制 形式 将 对 象 文 本 化 。 所 以 ， 并 不 能 直接 看 明白 是 什么 
意思 。 但 想 要 看 转 储 下 来 的 数据 内 容 的 情况 也 不 很 多 ， 因 而 问题 也 不 
大 。 为 了 满足 那些 想 看 的 人 ， 将 Marshal 的 数据 格式 列 于 图 13-4 与 表 
13-2 中 。 图 13-5 显示 了 一 个 Marshal 数据 的 例子 ，Marshal 就 输出 这 
样 的 二 进 制 数据 。 


[major] [minor][object]... 


牛 格 式 主 版 本 (Ruby 1.8.6 中 
格 对 6 中 


4) 
8) 


日 

碟 
日 

丰 


格式 次 版 本 (Ruby 1.8. 
object : [类 型 ][ 类 型 固有 表示 ] 


图 13-4 ”Marshal 数据 的 格式 ， 从 先头 开始 ， 依 次 为 major、minor、object 


表 13-2 构成 Marshal 数 据 的 类 型 一 览 


对 象 、 类 实例 变量 、 名 称 、 值 


i 小 整数 。” (Fixnum) 值 
f Float) 值 
1 | 大 整数 (Bignum) 值 
"” [字符 串 。 (String) 字符 串 长 度 、 文 
/ “| 正则 表达 式 “长度 、 模 式 


吉 构 体 (Struct) 长 度 、 名 称 、 值 
名 (symbol) 长 度 、 名 称 
既 有 符号 名 (symbol) id 

I 类 实例 变量 对 象 、 数 、 名 称 、 值 

@ 


| 
i 
:| 
| 
| 
@ 


#dump 以 下 ( ) 内 数据 
p Marshal.dump( [1,"2",{3=>4,5=>6}]) 

# 结 果 如 下 
#"\004\010[\010i\006\"\0062{\007i\012i\013i\010i\011" 


# 以 上 结果 的 意义 如 下 。 (\nnn 表示 八进制 数 ， 参 照 表 13-2) 


\004 主 版 本 4 

\010 次 版 本 8 

[\010 长 度 3 的 数组 <8 = 3 + 5> 

i\006 整数 1<6 = 1 + 5> , , ,第 1 要 素 
\"\006 长 度 1 的 字符 串 <6 = 1 + 5>  .,. .第 2 要 素 
2 长 度 2 的 文本 

{\007 长 度 2 的 哈 希 <7 = 2 + 5> .. .第 3 要 素 
i\012 整数 5<10 = 5 + 5> ,,，, 键 
i\013 整数 6<11 = 6 + 5> ,71 值 
i\010 整数 3<8 = 3 + 5> ,.. 键 
i\011 整数 4<9 = 4 + 5> :i 值 


# 以 上 例子 中 ， 整 数 是 通过 独特 的 变换 方法 来 < 表示 > 的 


0 To" 
1~122 "n + 5" 
-123~-1 "(n - 5) & 0xff" (位 运算 ) 


上 述 以 外 "长 (1-4) ， 最 大 4 字 市 " 


图 13-5 ”Marshal 数据 的 具体 例子 
Ruby 版 本 不 同 ，Marshal 的 变换 格式 也 完全 不 同 ， 所 以 对 同一 对 象 进 
行 写 入 和 读 出 时 必须 使 用 Ruby 的 同一 版 本 。 但 是 ， 同 一 主 版 本 内 ， 
数据 具有 向 下 兼容 性 。 
Marshal 的 格式 现 已 相当 稳定 ， 最 近 多 年 来 没有 变化 。 
13.1.6 不 能 保存 的 3 类 对 象 
Marshal 在 实现 上 有 限制 。 以 下 3 类 对 象 不 能 保存 。 
。 定义 了 特异 方法 的 对 象 。 
。 输 入 、 输 出 或 是 套 接 字 (Socket) 等 不 能 超越 进程 保存 的 对 象 。 
。 在 扩充 库 中 定义 ，Ruby 不 知道 保存 方法 的 对 象 。 


Marshal 按 关 进 行 封 送 处 理 ， 所 以 ， 它 不 能 处 理 含有 "特异 方法 ”的 对 
象 ， 因 为 这 些 方法 的 信息 不 属于 任何 类 。 


输入 、 输 出 及 套 接 字 等 对 象 ， 只 在 特定 进程 单位 内 有 效 ， 不 可 能 对 它 
们 进行 合适 的 Marshal。 比 如 ， 进 程 一 旦 终止 ， 文 件 或 许 被 更 改 ， 或 许 
被 删除 ， 不 可 能 恢复 到 原来 状态 。 


最 后 ， 由 扩展 方法 定义 的 对 象 ， 由 于 构成 Marshal 的 子 程序 不 知道 雪 
送 处 理 的 方法 ， 所 以 也 不 是 封 送 处 理 的 对 象 。 


但 是 ， 即 使 不 能 够 封 送 处 理 ， 若 不 是 像 输 入 输出 那 种 从 原理 上 不 可 能 
的 情况 ， 单 纯 是 不 知道 封 送 处 理 方法 的 话 ， 重 新 教 一 遍 也 就 行 了 。 
Marshal 为 用 户 定 义 对 象 提供 了 封 送 处 理 的 方法 。 用 户 为 每 一 个 类 定义 
一 个 用 于 封 送 处 理 的 marshal_dump 和 用 于 复原 的 marshal_load 
方法 就 可 以 了 。 


如 果 想 要 dump 的 对 象 定 义 了 marshal_dump 方法 ， 
Marshal.dump 就 使 用 该 方法 的 结果 进行 dump 。marshal_dump 


返回 侣 有 以 后 复原 时 必要 信息 的 值 ， 这 个 值 被 写 入 封 送 处 理 dump 转 
储 下 来 的 数据 中 。 


如 果 想 要 复原 的 对 象 定 义 了 marshal 1oad 方法 ， 就 用 对 应 的 
marshal_dump 生成 的 数据 为 参数 ， 调 出 对 象 的 marshal load 
方法 。marshal_dump 与 marshal 1oad 的 使 用 方法 示 于 图 13-6 
和 


class Foo 
def initialize(a,b) 
Qa = a 
@b =b 
end 
def marshal _ dump 
#@a, @b 的 值 以 数组 形式 dump 


def marshal_load(data) 
@a = data[9] # 用 保存 的 值 进行 初始 化 
@b = data[1] 


图 13-6 marshal dump 和 marshal load 的 使 用 方法 


13.1.7 ”制作 面向 对 象 数 据 库 


使 用 Marshal 保存 对 象 ， 使 对 象 具 有 了 持久 性 。 所 以 ，Marshal 也 可 应 
用 于 面 疝 对 象 数 据 库 。 


PStore 库 (persistent store， 对 象 持久 性 保存 ) 是 Marshal 的 用 例 之 
。 Marshal 虽然 只 是 将 数据 变换 为 字 节 串 ，PStore 却 利 用 了 这 一 点 ， 
简单 地 实现 了 面 癌 对 象 数据 库 。 


因为 对 象 的 封 送 处 理 这 一 最 麻烦 的 部 分 交 给 了 Marshal 模块 ， 即 使 包 
售 注 释 和 空 行 ，PStore 也 只 是 一 个 仅 有 400 行 左 右 的 小 型 库 。PStore 
是 作为 Marshal 的 用 例 来 开发 的 ， 原 型 只 有 100 多 行 ， 我 只 用 了 一 个 
易 上 就 完成 了 。 


PStore 有 3 个 特征 : 使 用 Marshal， 可 以 原封 不 动 地 保存 任意 的 Ruby 
对 象 ， 具 有 容易 使 用 的 接口 ， 有 事务 处 理 (transaction) 


事务 是 数据 库 的 处 理 单位 。 它 是 防 止 数据 库 变 为 不 完整 状态 的 一 种 机 
制 。 事 务 如 果 没 有 问题 正常 完成 的 话 ， 其 结果 将 正常 写 入 数据 库 ; 如 
果 由 于 某 种 原因 〈 比 如 异常 ) 中 途 失 败 ， 数 据 库 的 状态 就 是 事务 处 理 
开始 前 的 状态 ， 没 有 变化 。 


PStore 也 有 缺点 。 它 不 适合 一 下 子 将 数据 全 部 读 入 内 存 的 大 规模 数据 
库 。 但 几 百 子 市 的 小 规模 数据 库 ， 应 该 没 问题 。 


13.1.8 ”试用 pStore 


按照 顺序 答 试 一 下 使 用 PStore 对 和 象 吧 。 


(a) 打开 数据 库 
db = PStore.new(path) 


(b) 开始 事务 处 理 
db.transactionf{ 


(c) 对 象 的 登录 与 取得 
db["foo"] = object # 对 象 的 设 定 
db["bar"] # 对 象 的 取得 


(d) 对 象 名 的 确认 
db .roots #root 名 一 览 
db.root?("foo") #root 名 foo 存在 时 为 真 


图 13-7 PStore 的 使 用 方法 


打开 数据 库 


首先 像 图 13-7a 那样 打开 数据 库 ， 得 到 一 个 PStore 数据 库 对 象 。 
中 的 path 指定 数据 库 文 件 的 路 径 。 


开始 事务 处 理 


如 前 所 述 ， 事 务 是 数据 库 处 理 的 单位 。 对 数据 库 的 处 理 是 以 事务 为 单 
位 写 入 ， 如 有 果 处 理 途中 发 生 了 异常 ， 数 据 库 的 状态 将 你 持 在 事务 处 理 


前 的 状态 。 事 务 处 理 通 过 在 transaction 方法 中 指定 块 来 开始 ( 参 
见 图 13-7b) 。 


从 块 中 退出 ， 事 务 处 理 就 结束 了 。 
对 象 的 登录 和 取得 


PStore 对 象 可 以 作为 一 种 哈 希 值 来 处 理 。 像 图 13-7c 那样 ， 对 象 的 
登录 和 取得 用 [ ] 方 法 。 


但 是 ，PStore 与 哈 布 表 还 有 区 别 ， 如 采 对 象 的 名 字 没 有 登录 忠 取 
得 ， 束 会 出 错 。 这 样 如 采 不 知道 一 个 名 子 古 否 在 数据 库 里 登录 过 ， 整 
有 必要 事先 确认 一 下 。 


取得 数据 库 中 登录 的 全 部 对 象 名 ， 用 roots 方法 ， 检 查 某 一 名 称 的 
root ( 根 ) 是 否 登录 了 ， 用 root? 方法 (参见 图 13-7d) 。 


事务 处 理 成 功 时 对 象 的 写 入 ， 十 把 市 名 称 的 对 象 作为 根来 进行 的 ， 这 
就 是 root 这 个 词 的 来 源 。 


事务 处 理 的 终止 


transaction 方法 中 指定 的 块 执行 完 之 后 ， 事 务 处 理 目 动 终 止 ， 数 
据 库 所 引用 的 全 部 对 象 的 状态 都 写 入 文件 。 


在 事务 处 理 的 过 程 中 ， 也 有 强制 性 终止 的 方法 。commit 方法 正常 结 

束 事务 处 理 ， 所 以 ，commit 后 的 执行 位 置 就 跳 到 transaction 方 

法 所 指定 块 的 末尾 。abort 方法 强制 结束 事务 处 理 后 ， 也 在 执行 位 置 
跳 到 transaction 方法 所 指定 的 块 的 末尾 ， 这 一 点 上 与 commit 相 

同 ， 但 数据 库 的 变更 不 写 入 数据 库 ， 而 是 取消 。 


在 CGI 等 多 进程 环境 中 使 用 PStore 时 ， 需 要 将 数据 文件 加 锁 。 
PStore 在 内 部 自动 使 用 flock 进行 专用 控制 ， 这 一 点 可 以 放心 使 
用 。 但 是 ，PStore 没有 实现 相同 进程 中 的 多 个 线程 同时 访问 的 专用 
控制 。 线 程 间 的 专用 控制 是 程序 员 的 责任 。 


数据 库 内 对 象 的 引用 与 更 新 ， 一 定 要 在 事务 内 进行 。 在 事务 处 理 中 途 
取出 的 对 象 ， 在 事务 之 外 改变 其 状态 虽然 不 出 错 ， 但 这 一 变更 不 会 反 


映 到 数据 库 中 (参见 图 13-8) 。 


db_data = nil 
db.transaction { 
db["foo"] = [1,2,3] 
db_data = db["foo"] # 取 出 


事务 处 理 终止 


可 以 访问 事务 处 理 内 的 数据 
db_data[0] # 输 出 [1] 


虽然 可 以 更 新 数据 ， 但 不 反映 到 DB 里 
db_data[0] = 42 


} 
# 


图 13-8 ”事务 处 理 终止 后 访问 数据 库 内 对 象 的 示例 
简单 说 明 一 下 事务 处 理 的 步 又 。 
1. 用 flock 将 数据 文件 加 锁 。 
2. 用 Marshal 从 数据 文件 中 读 取 数据 。 
3. 执行 (事务 处 理 ) 块 。 
4. 块 的 执行 成 功 时 ，Marshal 将 数据 写 入 数据 文件 。 
5. 块 的 执行 失败 时 ， 什 么 也 不 做 。 


实际 上 ， 还 应 有 备份 文件 的 生成 、 错 计 处 理 等 步 妊 ， 要 更 复杂 一 些 ， 
但 基本 上 是 这 样 的 。 


使 用 PStore 的 示例 程序 参见 图 13-9。 这 个 程序 从 标准 输入 接受 名 
称 ， 然 后 将 各 名 称 的 出 现 次 数 录 入 数据 库 中 。 


require 'pstore' 


# 打开 数据 库 
db = PStore.new("/tmp/ncount") 
# 输 入 名 称 

STDOUT.print "input name:" 


STDOUT .flush 
name = gets.chomp 


db.transaction do 
# 名 称 不 存在 时 的 初始 化 
db[name] ||= 0 
# 名 称 的 计数 加 
db[name] += 1 
# 显 示 名 称 一 览 和 计数 
db.roots.each do |n| 
printf "name: %s count: %d\n", n, db[n] 
end 


end 


图 13-9 ”使 用 PStore 的 程序 示例 


13.1.9 ”变换 为 文本 的 YAML 


Marshal 的 变换 结果 是 二 进 制 文件 ， 内 容 不 容易 看 履 。 所 以 有 些 场合 ， 
印 使 效率 低 一 点 ， 也 需要 能 够 以 更 容易 看 懂 的 形式 输出 。 


能 够 满足 这 种 要 求 的 是 YAML。YAML 是 YAML Aint Markup 
Language (YAML 不 是 标记 语言 ) 的 缩 略 语 。 这 据说 是 开发 Penl 
Inline.pm 的 Brian Ingerson 研究 出 的 数据 序列 化 格式 。 

YAML 使 用 文本 形式 ， 不 依赖 于 平台 的 体系 结构 ， 是 一 种 对 人 而 言 易 
读 易 编辑 的 序列 化 格式 。 它 提供 了 面向 Perl、Ruby、Python 以 及 Java 
等 各 种 语言 的 API， 能 够 超越 语言 传递 数据 。 


YAML 有 以 下 儿 个 特征 : 记述 简洁 ; 结 条 容易 读 们 ;使 用 缩 进 的 层次 
表现 ， 数 据 表现 是 专用 的 ， 不 必 烦恼 标签 的 名 称 问 题 。 


YAML 可 以 活用 在 Ruby on Rails 的 配置 文件 等 各 种 各 样 的 领域 。 


YAML 是 在 Perl 中 开始 开发 的 ， 但 正式 的 支持 ，Ruby 是 第 一 个 。 
Ruby 中 YAML 的 基本 使 用 方法 如 图 13-10 所 示 。 


require ‘'yaml' 
pack = obj.to_yam1l # 将 obj 变 成 YAML 后 的 字符 串 


# 从 YAML 字符 串 复原 为 对 象 
unpack = YAML: :Load(pack ) 


图 13-10 YAML 的 使 用 方法 


加 载 yaml 库 以 后 ，0bject 类 里 就 退 加 了 to_yaml 方法 。 调 用 这 个 
方法 ， 可 以 得 到 任意 对 象 的 YAML 表现 。 图 13-5 的 Marshal 示 例 中 使 
用 的 同样 的 值 ， 我 们 给 它 变 成 YAML 看 看 吧 (参见 图 13-11) 。 


require 'yaml' 
print [1,"2",{3=>4,5=>6}].to_yaml 


# 输出 以 下 内 容 


2" 


: 6 
"4 


图 13-11 YAML 数据 的 一 个 具体 示例 


YAML 用 于 配置 文件 时 ， 很 方便 。 而 且 ， 用 to_yaml 方法 可 以 将 任 
意 对 象 变 换 为 YAML， 可 以 干 很 多 有 趣 的 事情 。 使 用 yaml 库 ， 可 以 
像 Marshal 一 样 简单 地 将 各 种 对 象 通过 dump 转 储 为 文本 格式 。 而 

且 ， 其 表现 比 Marshal 更 易 读 ， 与 Ruby 以 外 的 语言 也 可 以 进行 交换 。 


13.1.10 ”用 YAML 制作 数据 库 


与 Marshal 一 样 可 以 将 对 象 与 字符 串 进行 相互 变换 ， 也 就 意味 着 可 以 
实现 使 用 YAML 的 面 癌 对 象 数据 库 ， 即 类 似 于 PStore 的 东西 。 具 体 
例子 是 YAML: :Store 。YAML: :Store 与 PStore 互 换 性 非常 高 ， 
只 要 把 名 字 换 一 换 ， 面 向 PStore 的 程序 在 YAML : :Store 中 也 能 运 
行 。 

图 13-9 中 的 PStore 示例 程序 ， 用 YAML : :Store 重 写 以 后 ， 就 成 为 
图 13-12 那 样 。 只 要 稍微 改写 一 下 ， 就 能 实现 完全 相同 的 动作 。 图 13- 
12 中 程序 的 变更 点 只 有 3 点 。 一 是 require 'pstore' 变 成 
require 'yaml/store' ; 二 是 访问 PStore 变 成 访问 


YAML: :Store ; 还 有 一 个 是 数据 文件 的 格式 变 了 ， 所 以 文件 名 也 变 
了 。 


require 'yaml/store' 


db = YAML: :Store.new("/tmp/ycount") 
STDOUT.print "input name: " 

STDOUT. flush 

name = gets.chomp 


db.transaction do 
db[name] ||= 0 
db[name] += 1 
db.roots.each do |n| 
printf "name: %s count:%d\n",n,db[n] 
end 
end 


图 13-12 ”使 用 YAML: :Store 的 示例 程序 


像 这 样 只 要 很 少 的 变更 ，PStore 中 能 够 运行 的 程序 ， 在 

YAML: :Store 中 几乎 都 能 运行 。 事 实 上， 把 YAML : :Store 类 做 成 
PStore 类 的 子 类 ， 只 是 将 数据 的 整 列 部 分 更 改 为 使 用 to_yaml 方 
法 。 所 以 ， 提 供 YAML: :Store 功能 的 yaml/store.rb 文件 ， 算 上 注释 
和 空 行 ， 也 只 有 区 区 30 行 。 


表面 上 的 运行 虽然 完全 相同 ，PStore 上 运行 的 程序 和 
YAML: :Store 中 运行 的 程序 还 是 有 以 下 几 点 区 别 。 


。 数 据 格式 


PStore 使 用 Marshal，YAML : :Store 使 用 YAML。 如 果 有 可 能 
有 人 去 调查 或 操作 数据 文件 的 话 ， 还 是 会 发 现 YAML 更 易 懂 。 


。 数据 量 
像 上 面 的 示例 程序 这 种 小 的 数据 ， 几 乎 没什么 差别 ， 但 在 封 送 处 


理 大 规模 而 又 具有 复杂 结构 的 对 象 时 ，Marshal 比 YAML 紧凑 得 
多 。 可 以 说 ，Marshal 牺牲 了 易 读 性 而 实现 了 民 好 性 能 。 


。 执行 速度 
性 能 优良 不 光 是 容量 的 问题 。 使 用 Marshal 的 PStore 比 
YAML: :Store 速度 高 。 在 这 一 点 上 ， 也 是 数据 量 越 大 ， 两 者 的 
差异 就 越 显 著 。 


由 于 PStore 与 YAML: :Store 的 性 质 有 这 些 关 别 ， 所 以 有 必要 物 尽 
其 用 地 分 开 使 用 。 一 般 遵照 以 下 原则 。 


。 需 要 直接 看 数据 内 容 时 用 YAML: :Store。 
。 数据 的 委派 目标 不 限于 Ruby 时 用 YAML: :Store 。 


。 有 必要 对 用 户 定 义 的 数据 进行 细微 对 应 时 用 PStore 。 因 为 
PStore 可 以 用 marshal_dump 进行 定制 。 


。 数据 量 在 一 定 程度 以 上 ， 两 种 都 不 太 合适 的 时 候 ， 可 考虑 导入 专 
用 数据 库 系 统 。 


13.2” 对象 的 保存 


现在 介绍 一 下 对 象 持久 化 库 Madeleine。Madeleine 利用 直接 持久 化 1 
对 象 的 设计 模式 Object Prevalence 。 


因为 对 象 有 参照 关系 ， 所 以 不 能 够 单纯 地 变换 为 文本 。 


| 


Madeleine (http://madeleine.rubyforge.net/ ) 是 Object Prevalence 在 
Ruby 中 的 实现 ， 应 称 为 是 前 面 介绍 的 PStore” 的 发 展 形式 ， 由 Anders 
Bengtsson 开发 。 


Marshal 处 理 的 库 。Marshal 将 对 象 进行 文本 化 。 


Wels 


2 PStore， 是 逢 


PStore 只 是 对 象 单 纯 地 由 Marshal 输出 而 来 ，Madeleine 则 与 应 用 程序 
相 协 调 ， 实 现 了 高 可 靠 性 和 高 性 能 的 持久 化 。 


13.2.1 ”高 速 的 Object Prevalence 


所 谓 Prevalence， 是 一 种 实现 应 用 程序 的 持久 化 和 进程 间 共 至 数据 的 
设计 模式 。 用 Java 的 Object Prevalence 库 制作 的 Prevayler 

(http://www.prevayler.org/wiki) ， 与 经 由 JDBC3 利用 Oracle 数据 库 
的 模式 相 比 ， 速 度 不 可 思议 地 快 了 9000 倍 。 


说 相连 接 的 API。 顺 便 说 一 下 ，JDBC 不 是 缩写 。 


3JDBC 是 Java 与 数据 


a 


高 性 能 的 秘密 ， 在 于 直接 访问 内 存 中 的 数据 。Object Prevalence 中 ， 

将 处 理 的 数据 保存 在 正在 执行 的 应 用 程序 的 内 存 中 ， 检 索 等 操作 不 通 
过 SQL 而 是 直接 进行 。 这 样 就 节省 了 与 数据 库 服务 句 的 通信 成 本 (处 
理 时 间 ) ， 引 用 当然 就 会 变 得 很 高 速 。 


但 是 ， 只 有 有 征 同 一 进程 ， 才 能 引用 内 存 中 的 数据 ， 进 程 一 结束 ， 数 据 
马上 束 消 失 。 从 持久 化 的 角度 考虑 ， 有 必要 解决 这 一 问题 。 


Object Prevalence 用 日 志 记 录 (journaling) 4 和 快照 (snapshot) 来 解 
决 这 一 问题 。Object Prevalence 中 ， 数 据 更 新 时 不 是 直接 更 新 对 象 ， 

而 是 创建 称 为 command 的 对 象 。 它 采用 的 是 一 种 非常 间接 的 方式 ， 在 
用 command 更 狐 对 象 的 时 候 ， 内 存 中 的 对 象 更 新 的 同时 ， 所 有 的 更 新 
内 容 也 会 写 到 称 为 日 志 (journal log) 的 外 部 文件 里 。 


4 所谓 日 志 记 录 ， 是 指 这 样 一 种 记录 方式 ， 文 件 写 入 外 部 存储 器 时 ， 在 记录 实际 数据 之 前 ， 
先 写 入 管理 信息 (元 数据 ) ， 以 及 元 数据 的 变更 记录 。 


这 样 长 此 下 去 的 话 ， 日 志 束 会 越 来 越 大 。 所 以 ， 我 们 就 定期 地 将 现在 

数据 的 状态 写 入 到 称 为 快照 的 文件 中 去 。 有 了 快照 ， 老 的 日 志 束 不 需 

要 了 ， 可 以 在 适当 的 时 机 删除 。 

这 里 重要 的 是 ， 有 了 最 狐 的 快照 与 最 新 的 日 志 ， 整 可 以 完全 恢复 现在 

对 象 的 状态 。 程 序 局 动 时 ， 按 下 面 3 个 步骤 可 以 恢复 内 存 中 的 数据 。 

tn 写 入 日 志 中 的 信息 是 完整 的 ， 束 可 以 共 至 对 和 象 
1. 如 来 不 存在 快照 ， 束 初始 化 应 用 程序 数据 。 


2. 如 末 存 在 快照 ， 就 读 入 其 中 最 新 的 一 个 。 


3. 如 果 还 存在 日 志 ， 也 将 其 读 入 ， 并 用 其 中 最 新 的 一 个 更 新 应 用 程 
序数 据 。 


即便 是 程序 异常 终止 的 情况 ， 因 为 留 有 快照 和 日 志 ， 也 还 可 能 复原 最 
新 的 数据 。 


基本 原理 践 是 这 些 ， 但 Java 版 Prevayler 中 ， 另 有 别 的 Java 虚拟 机 里 
保存 有 应 用 程序 数据 的 副本 (Replica) ， 日 志 记录 和 快照 的 生成 就 交 
。 这 样 ， 就 不 必 在 每 次 取得 快照 的 时 候 停 止 程序 ， 从 而 实 
况 了 高 性 能 。 


Ruby 版 的 Madeleine 中 ， 还 没有 使 用 Replica， 为 了 取得 快照 ， 程 序 全 
体 都 要 人 停止。 所以， 不 能 实现 Java 版 那 种 特别 高 的 性 能 。 因 为 我 们 还 
2 人 上 使 用 Madeleine， 所 以 还 不 太 清 楚 它 会 
多 大 的 影响 。 


13.2.2 ”Object Prevalence 的 问题 点 


Object Prevalence 通过 使 用 日 志 记 录 和 快照 实现 了 对 象 的 持久 化 和 进 
程 间 共享 ， 但 它 也 不 是 没有 缺点 。Object Prevalence 将 所 有 的 数据 都 
保存 到 内 存 中 ， 随 着 数据 量 的 增 大 ， 内 存 的 消耗 也 在 增 大 。 


关系 数据 库 中 ， 不 引用 的 数据 放 在 文件 中 ， 必 要 的 内 存量 束 不 用 那么 
多 了 。 况 且 ， 最 近 内 存 的 价格 在 下 降 ， 最 大 容量 也 在 增加 。 普 通 的 PC 
i 也 变 得 稀 松 平 肖 了。 也 许 内 存 的 问题 变 得 越 来 越 


另 一 个 问题 是 使 用 Object Prevalence 的 程序 ， 有 着 为 了 数据 更 新 而 有 具 
有 的 特殊 结构 。 前 面 已 经 说 明 ， 更 新 持久 化 数据 的 时 候 ， 需 要 经 由 
command 对 象 。 


这 与 我 们 平常 习惯 的 直接 更 新 对 象 的 实例 的 做 法 大 不 相同 ， 需 要 适应 
一 下 。 后 面 会 讲 到 对 策 。 


13.2.3 ”使 用 Madeleine 


Madeleine 作为 设计 模式 Object Prevalence 在 Ruby 中 的 实现 ， 其 使 用 
方法 示 于 图 13-13 中 。 这 是 一 个 简单 的 计数 器 程序 。 从 键盘 输入 字符 


串 jnc ， 计 数 右 的 值 就 增加， 输入 字符 串 show ， 计 数 右 的 值 束 显示 
出 来 。 


require 'madeleine' 


class CountData 
attr_accessor :count 
def initialize 
Qcount = 0 
end 
end 


class CountInc 
def execute(data) 
data.count += 1 
end 
end 


class CountShow 
def execute(data) 
data.count 
end 
end 


# (A) 初始 化 Madeleine handle 
m = SnapshotMadeleine.new("/tmp/data")t{ 
CountData.new 


} 
Thread.start { 
loop { 
sleep 120  # 每 120 秒 取 一 次 snapshot 
m.take_snapshot 
} 
} 
loop do 


print "inc or show? " 
STDOUT.flush 
line = gets 
break if line == nil 
case line 
when /A^inc/ 
printf "count -> %d\n",m.execute command(CountInc.new) 
when /^show/ 
printf "count:%d\n",m.execute query(CountShow.new) 
end 
end 


| 


图 13-13 ”Madeleine 的 使 用 示例 


为 了 利用 Madeleine， 首 先 ， 像 图 13-13 (A ) 那样 对 系 统 进行 初始 
化 。SnapshotMadeleine .new 的 参数 里 ， 指 定 快照 和 日 志 的 存放 
路 径 。 


可 以 省 略 的 第 2 个 参数 指定 将 对 象 写 入 快照 时 所 用 的 模块 。 缺 省 值 是 
内 置 的 Marshal 模块 。 第 2 个 参数 若 指定 了 YAML” ， 可 以 保存 为 
YAML 形式 。 


5 YAML 是 为 了 让 人 读 起 来 更 易 懂 而 进行 Marshal 化 的 模块 。 


使 用 zlib 可 以 将 持久 化 数据 压缩 。 首 人， 开头 部 分 变 为 以 下 这 样 。 


reduire 'madeleine' 
reduire 'madeleine/zmarshal' 


在 此 基础 上 ，SnapshotMadeleine .new 的 第 2 个 参数 指定 
Madeleine::ZMarshal.new(Marshal)。 也 可 以 使 用 zlib 压缩 的 
YAML 文件 ， 只 要 将 参数 Marshal 变 为 YAML 束 行 了 。 


SnapshotMadeleine ,new 在 快照 存在 的 情况 下 ， 可 以 从 快照 复原 
应 用 程序 数据 。 但 是 ， 程 序 在 第 一 次 局 动 时 ， 因 为 不 存在 快照 ， 就 执 
行 给 定 的 块 ， 把 结果 作为 应 用 程序 数据 。 图 13-13 的 程序 中 ， 生 成 一 
个 CountData 类 的 对 象 。 如果 存 在 快照 ， 就 不 执行 块 ， 而 使 用 从 快 
照 和 日 志 复原 的 CountData 对 象 。 不 管 是 哪 种 情况 ， 
SnapshotMadeleine .new 的 返回 值 都 存放 在 Madeleine 处 理 程序 
中 。 存 放 在 Madeleine 中 的 数据 更 新 时 ， 一 定 经 由 处 理 程序 来 创建 
command ， 然 后 执行 处 理 。 有 具体 访问 方法 如 下 。 


m.execute_command(command) 


command 被 称 为 command 对 象 ， 是 执行 数据 访问 的 类 。 
execute_command 方法 被 调用 后 ， 按 以 下 步骤 处 理 : 加 锁 ， 写 日 志 
以 及 调用 command .execute 。 


不 管 是 哪个 类 的 对 象 都 无 关 紧 要 ， 但 需要 满足 以 下 4 个 条 
件 。 


有 execute 方法 


必须 能 够 记述 command ,execute(data) 。data 是 应 用 程序 数 
据 ， 由 execute_command 传递 而 来 。 
没有 副作用 


command 对 象 不 能 获取 由 execute 的 参数 传递 过 来 的 数据 以 外 的 信 
息 。 全 局 变量 、 随 机 数 、 时 刻 的 引用 以 及 文件 的 输入 输出 也 是 禁 

的 。 这 是 在 按 顺序 调用 保存 在 日 志 记 录 里 的 command 对 象 的 
execute 方法 时 ， 再 现 数据 的 Object Prevalence 所 必需 满足 的 条 件 。 


如 条 有 引用 全 局 变量 这 样 的 外 部 信息 的 command ， 束 不 能 从 日 志 中 
复原 数据 。 


可 以 持久 化 


command 对 象 由 Marshal (或 者 明确 指定 的 持久 化 模块 ) 写 入 日 志 。 
所 以 ，command 对 象 本 号 必须 能 够 持久 化 。 

持久 化 的 command 对 象 写 入 日 志 记 录 ， 所 以 希望 它 本 身 不 太 大 ( 尺 
可 能 不 含 对 其 他 对 象 的 引用 ) 。 

command 不 含 对 data (应 用 程序 数据 ) 的 引用 

command 被 变 成 字符 串 记 录 到 日 志 里 ， 如 果 含 有 对 应 用 程序 数据 的 引 


用 ， 日 志文 件 就 会 膨胀 ， 就 根本 谈 不 上 性 能 了 。 前 面 提 到 过 ， 
command 不 应 含有 太 大 的 数据 。 


即使 执行 了 command ， 只 要 数据 没有 变更 ， 还 可 以 利用 
execute_query 方法 。execute_query 方法 执行 command 时 ， 


不 往日 志 里 写 记 录 。 因 为 日 志 里 没 留 记录 ， 执 行 的 command 不 能 更 
新 应 用 程序 数据 。 万 一 更 新 了 数据 ， 会 成 为 很 广 重 的 问题 。 


I 13-13。 实 际 执行 一 下 图 13-13 中 的 程序 吧 (参见 图 13- 
14) 。 


$ ./ruby /tmp/m.rb 
] show?inc 
-> 1 
show?show 
: 1 
show? inc 
-> 2 
show? AD 


$ ./ruby /tmp/m.rb 
inc or show? Show 


count : 2 

inc or show? nc 

count -> 3 

i show? inc 
-> 4 
Show?2AD 


图 13-14 图 13-13 中 程序 的 执 行 结 果 
中 途 按 下 Ctrl +D 两 个 键 ， 让 程序 结束 。 但 是 再 次 执行 时 ， 能 够 记 住 
以 前 的 状态 (这 里 是 2) 。 

13.2.4 ”访问 时 刻 信息 


对 command 所 作 的 限制 中 ， 葵 止 全 局 变量 和 文件 的 输入 输出 ， 就 当 
做 是 没 办 法 吧 。 随 机 数 作为 从 外 部 传 给 command 信息 的 一 部 分 ， 也 


\ 已 5 
还 能 人 航 有 党 和 


但 是 ,不 能够 访问 时 刻 信息 ， 对 于 编程 则 是 一 个 相当 大 的 限制 。 所 
以 ， 我 们 准备 了 Madeleine: :Clock::ClockedSystem 模块 。 


为 了 使 用 这 一 模块 ， 程 序 的 开头 写成 这 样 : 


require 'madeleine/clock' 


在 此 之 后 ， 应 用 程序 数据 的 类 里 ， 将 这 个 模块 包含 进去 ，clock 方法 
就 可 以 使 用 了 。 比 如 ， 现 在 时 刻 可 以 用 clock .time 取得 。 


实际 上 ， 在 取得 时 刻 的 时 间 点 ， 时 刻 信息 就 写 入 了 日 志文 件 。 但 是 ， 
用 户 (程序 员 ) 没 必要 知道 这 一 点 。 


Madeleine: :Clock: :ClockedSystenm 的 时 刻 记录 程序 用 法 示 于 
13-15 中 ， 每 按 下 一 次 回 车 键 ， 这 个 程序 就 记录 一 次 时 刻 。 


require 'madeleine' 
require 'madeleine/clock' 


class TimeRecord 
include Madeleine: :Clock: :ClockedSystem 
attr_accessor :last _ time 
def initialize 
Q@last _ time = nil 
end 
def record 
@last_ time = clock.time 
end 
end 


class RecordCommand 
def execute(data) 
data.record 
end 
end 


m = SnapshotMadeleine.new("/tmp/record")t{ 
TimeRecord.new 


} 
# (A) 内 部 时 钟 的 初始 化 


Madeleine: :Clock: :TimeActor .launch(m) 
loop do 

last = m.system.]last_ time 

puts last if last 

print "press enter to record time " 

STDOUT.flush 

line = gets 

break if line == nil 

m.execute_command(RecordCommand.new) 
end 


图 13-15 使 用 Madeleine::Clock: :ClockedSystenm 的 时 钟 程序 


当然 ， 即 使 中 断 进程 ， 只 要 留 下 日 志 记 录 和 快照 数据 ， 下 次 局 动 时 还 
能 记得 最 后 记录 的 时 刻 。 


利用 madeleine/clock 库 时 应 当 注意 的 是 ， 像 图 13-15 (A) 所 示 
那样 ， 别 忘 了 调用 Madeleine: :Clock: :TimeActor .1launch() 
方法 。 调 用 时 ， 作 为 参数 ， 传 递 Madeleine 对 象 的 处 理 权 。 


一 步骤 对 于 内 部 时 钟 的 管理 也 是 必要 的 。 如 果 忘 了 调用 这 一 步 ， 时 
钟 就 不 能 初始 化 ， 会 给 出 一 个 怪异 的 时 间 (具体 讲 ， 总 是 1970 年 1 月 
1 日 上 午 9 时 ) 。 


13.2.5 ”让 Madeleine 更 容易 使 用 


正如 到 目前 为 止 所 见 到 的 那样 ，Madeleine 既 保 持 简 洁 性 与 高 性 能 ， 
能 让 对 象 持久 化 ， 但 它 也 有 缺点 。 


要 说 最 大 的 缺点， 还 是 在 每 次 更 新 应 用 程序 数据 时 ， 都 必须 要 生成 


command 对 象 ， 调 用 execute _command 。 


通常 在 Ruby 中 ， 对 象 的 操作 单纯 是 通过 调用 方法 来 实现 的 。 相 比 之 
下 ，Madeleine 的 这 一 缺点 会 让 人 很 不 耐烦 。 


这 里 将 要 介绍 的 是 附属 于 Madeleine 的 madeleine/automatic 
库 。 用 这 个 库 ， 应 用 程序 数据 的 更 新 可 以 通过 普通 的 方法 调用 来 实 
现 。 


有 


CC 


图 13-16 是 图 13-13 中 的 程序 经 改良 而 来 的 。 使 用 
madeleine/automatic ， 对 应 用 程序 数据 的 操作 变 为 普通 的 方法 
调用 。execute command 的 调用 没有 了 ， 可 以 直接 调用 用 
Madeleine 对 象 的 system 方法 取得 的 应 用 程序 数据 (CountData 
类 的 对 象 ) 的 方法 。 数 据 操作 部 分 变 得 更 直接 更 易 懂 。 


require 'madeleine' 
require 'madeleine/automatic' 


class CountData 
include Madeleine::Automatic::Interceptor 
def initialize 
Qcount = 0 
end 
def show 
Q@count 
end 
automatic_read_only :Show 
def inc 
Qcount += 1 
end 
end 


m = AutomaticSsnapshotMadeleine.new("/tmp/data")t{ 
CountData.new 
} 


Thread.start { 
loop { 
sleep 120 # 每 120 秒 取 一 次 快照 
m.take_snapshot 
} 
} 


loop do 
print "inc or show?" 
STDOUT.flush 
line = gets 
break if line == nil 
case line 
when /^inc/ 
printf "count -> %d\n", m.system,.inc 
when /^show/ 
printf "count: %d\n", m.system.show 
end 
end 


图 13-16 用 madeleine/automatic 库 改 良 图 13-13 后 的 程序 
另 一 方面 ， 表 示 应 用 程序 数据 的 CountData 类 , 将 Madeleine:: 


Automatic: :Inter-ceptor 模块 包含 进来 了 。 这 一 模块 实现 了 “ 魔 
法 ”， 将 方法 调用 在 内 部 置换 为 创建 command 


我 们 仅仅 为 了 取得 现在 状态 的 show 方法 ， 而 不 更 新 数据 ， 所 以 没有 
必要 在 日 志 里 留 下 记录 。 这 里 追加 了 automatic_read_only 设 
定 ， 可 以 削减 多 余 的 日 志 。 使 用 madeleine/automatic ， 可 以 让 
Madeleine 的 带 持 久 化 功能 的 应 用 程序 开发 变 得 更 简单 。 


13.2.6 ”Madeleine 的 实用 例 Instiki 


里 然 Madeleine 具有 各 种 各 样 的 优点 ， 却 没 怎么 得 到 广泛 应 用 。 除 了 
知道 的 人 不 多 之 外 ， 还 因为 数据 全 保存 在 内 存 里 ， 就 必须 十 分 留意 数 
据 的 大 小 ， 这 也 成 为 妨碍 它 广泛 使 用 的 因素 。 


实际 上 ， 利 用 Madeleine 的 应 用 程序 的 代表 是 wiki 的 实现 之 一 Instiki 。 
Instiki 是 因 开发 Ruby on Rails 而 出 名 的 David Heinemeier Hansson 在 发 布 
Ruby on Rails 之 前 所 开发 的 程序 。 


Instiki 在 利用 Madeleine 方面 也 是 一 个 很 有 意义 的 应 用 程序 。 男 外 ， 它 
也 反映 了 MVC 构成 的 目 孙 结构 ， 安 逆 非 常 简 单 ， 体 现 了 后 来 的 Ruby 
on Rails 的 一 些 特征 ， 征 个 很 有 趣 的 软件 。 


但 是 ，Madeleine 有 一 个 很 大 的 缺点 ， 那 就 是 没有 考虑 多 个 进程 同时 更 
渐 数 据 的 情况 。 


比如 并 行 执行 图 13-13 中 介绍 的 计数 器 程序 ， 计 数 束 会 出 现 错位 ( 参 
见 图 13-17) 。 在 图 13-17 中 ,终端 A 中 图 13-13 的 程序 正在 执行 ， 又 
从 终端 B 启动 这 一 程序 。 看 起 来 终端 A 的 显示 内 容 不 受 终端 B 的 影 


啊 ， 但 结束 终端 A 的 程序 后 再 度 启 动 ， 记 录 的 数值 束 会 从 2 增加 到 
4。 因 此 ， 有 必要 采取 对 策 ， 让 使 用 Madeleine 的 程序 服务 器 化 。 


# 终端 A 

$ ./ruby /tmp/m.rb 
inc or show? nc 
count -> 1 

inc or show? show 
count: 1 


# 终端 B 

$ ./ruby /tmp/m.rb 
inc or show? inc 
count -> 2 

inc or show? inc 


count -> 3 
inc or Show? AD 


# 终端 A ( 续 ) 
inc or show? nc 
count -> 2 
inc or show? ^D 


$ ./ruby /tmp/m.rb 
inc or show? show 
count: 4 


图 13-17 计数 器 程序 同时 执行 的 示例 


13.3 ”关于 XML 的 考察 


以 前 ， 我 曾经 写 过 对 XML 持 批判 仿 度 的 博客 。 所 以 ， 很 多 时 候 我 被 
视 为 XML 反对 派 。 的 确 ， 很 多 人 不 管 合适 不 合适 ， 到 处 都 用 XML， 
i ° 但 这 顶 多 是 个 使 用 场合 的 问题 ， 我 无 意 否 定 XML 技 


这 一 下 考察 一 下 XML 的 性 质 ， 分 析 其 长 处 短处 ， 知 道 在 哪些 地 方 该 
用 ， 哪 些 地 方 不 该 用 。 


13.3.1 XML 的 祖先 是 SGML 


首先 回顾 一 下 XML 的 技术 史 。 XML 的 祖先 是 SGML ( Standard 
Generalized Markup Language) 。SGML 是 将 文档 电子 化 的 一 种 格式 。 
它 由 3 部 分 组 成 :表示 数据 本 身 的 Instance， 表 示 数 据 结构 格式 的 
DTD (Document Type Definition) ， 以 及 SGML 声明 。 


SGML 最 初 由 美国 IBM 公司 的 Charles Goldfarb 所 开发 ，1986 年 通过 
国际 标准 化 组 织 (ISO) 的 认证 ， 其 规范 文件 为 I SO8879。 在 那 之 后 ， 
它 被 广泛 应 用 于 产品 手册 等 各 种 文档 的 电子 化 上 。 


WWW 诞生 以 后 ， 网 页 的 表现 形式 采用 了 SGML 。HTML (Hyper Text 
Markup Language) 是 SGML 适用 于 特定 的 DTD 的 产物 ， 也 可 以 说 是 
SGML 的 实例 ， 或 者 说 是 SGML 的 子 集 。 


由 于 SGML 太 复 杂 ， 处 理 成 本 太 高 ， 为 了 表现 网 页 ， 我 们 将 SGML 
特 化 为 HIML， 随 之 而 诞生 的 是 XML (Extensible Markup 
Language) 8 


XML 不 像 HTML 那样 是 为 了 特定 目的 的 标记 语言 ， 它 一 开始 就 是 为 
了 通用 目的 而 设计 的 。 另 外 ， 为 了 计 XML 在 没有 DTD 来 定义 语法 或 
提供 schema 信息 的 情况 下 ， 也 能 够 解析 ， 人 们 对 其 语法 进行 了 人 简化 。 
XML 的 规范 于 1995 年 左右 在 W3C 协会 (World Wide Web 
Consortium) 上 开始 讨论 ，1998 年 发 布 XML 1.0。2004 年 公布 的 
XML 1.1 版 是 最 新 的 规范 。 


13.3.2 ”XML 是 树 结构 的 数据 表现 


现在 再 来 看 看 XML 的 概要 吧 。XML 数据 的 形式 如 图 13-18 所 示 。 这 是 
假想 地 址 信息 的 XML 数据 。XML 基 本 上 是 纯 文 本 ， 以 类 似 于 HTML 的 
另外， 以 标签 骨 套 的 方式 实现 

对 结构 。 


<addressbook> 
<address> 

<name initial = "M"> 松 本 行 弘 </name> 
<zipcode>699-0201</zipcode> 
<address> 松 江 市 玉 汤 町 玉 造 </address> 
<tel>0852-62-XXXX</tel> 

</address> 

<address> 
<name initial = "N"> 网 络 应 用 通信 研究 所 

</name> 
<zipcode>690-0826</zipcode> 
<address> 松 江 市 学 园 南 2-12-5</address> 
<tel>0852-28-XXXX</tel> 

</address> 

<address> 
<name initial = "R"> 乐 天 </name> 
<zipcode>140-0002</zipcode> 
<address> 铝 川 区 东 品 川 4-12-3</address> 
<tel>03-0387-XXXX</tel> 

</address> 

</addressbook> 


图 13-18 XML 数据 的 示例 


如 上 所 述 ，XML 是 继承 了 SGML 的 通用 标记 语言 。 它 与 SGML 最 大 的 
区 别 是 其 基本 语法 固定 ， 不 依赖 于 DTD 那 样 的 外 部 信息 也 能 解析 。 
XML 中 规定 ， 像 <data> 对 应 </data> 那样 ， 标 签 必 须 用 同名 的 结 
束 标签 来 结束 ;没有 结束 标签 的 〈 空 要 素 标签 ) ， 像 <br/> 那样 ， 末 
尾 必 须 带 斜 杠 。 


同样 是 继承 目 SGML ，HTML 整 没 有 这 种 规则 ， 比 如 <hr> 束 没 有 结 
束 标签 。 因 为 不 知道 标签 在 哪里 结束 ， 如 果 没 有 各 标签 的 概要 信息 ， 
忠 不 能 解析 。 


像 这 样 即使 没有 标签 的 概要 信息 也 能 解析 的 语法 称 为 恨 构 的 (well- 
formed) ， 这 是 XML 的 一 大 特征 。 


13.3.3 ”优点 在 于 纯 文本 


XML 有 很 多 优点 ， 其 中 最 大 的 优点 在 于 XML 基本 上 是 纯 文本 的 。 想 
一 想 所 表示 的 数据 ， 比 如 说 用 *.doc 这 种 Word 格式 的 数据 ， 随 着 时 光 
流逝 ， 当 处 理 这 种 数据 的 软件 再 也 找 不 到 的 时 候 ， 信 息 就 丢失 了 。 
XML 从 SGML 继承 的 好 处 束 是 ， 数 据 全 部 以 纯 文 本 表示 ， 表 示 结 构 
的 信息 附加 在 标签 里 。 


第 2 个 优点 是 不 易 发 生 关 于 字符 编码 的 问题 。Tim Bray 是 开发 XML 
的 初期 成 员 之 一 ， 有 时 被 称 为 "XML 之 父 ”。 我 曾经 有 过 一 次 与 他 亲自 
对 话 的 机 会 ， 当 被 问 到 “您 认为 XML 的 最 大 优点 是 什么 ? “的 时 候 ， 
他 马上 回答 “没有 字符 编码 的 问题 。” 


XML 规定 ， 在 没有 明确 指定 的 情况 下 ， 子 符 编码 均 使 用 Unicode。 在 
没有 这 一 规定 ， 编 码 信息 不 一 定 存 在 的 环境 中 ， 比 如 初期 的 HTML 
中 ， 文 本 数据 的 编码 方式 只 能 靠 推测， 万 一 推测 错 了 ， 吏 会 市 来 三重 
的 乱码 问题 。 现 在 ，HTML 中 指定 编码 方式 也 已 经 成 为 理所当然 的 事 
情 ， 遇 到 乱码 的 机 会 变 少 了 。XML 把 这 种 看 似 理 所 当然 ， 而 实际 并 非 
理所当然 的 东西 ， 清 清楚 楚 进 行 了 定义 ， 是 很 了 不 起 的 。 


第 3 个 优点 十， 得 在 于 民 构 的 性 质 ， 它 在 没有 数据 结构 的 情况 下 也 能 
解析 XML 数据。 这样 束 可 以 不 考虑 目的 ， 而 用 共同 的 工具 来 处 理 
XML 数据 。 当 然 ， 根 据 需 要 ， 使 用 数据 结构 信息 〈 称 为 schema) ， 
也 可 以 验证 XML 数据 是 否 具 有 合乎 目的 的 结构 。 


第 4 个 优点 在 于 ，XML 与 其 解析 工具 不 依赖 于 特定 的 语言 ， 比 如 Java 
生成 的 XML 数据 在 Ruby 中 解析 也 很 简单 。 解 析 XML 的 API， 像 
DOM 和 SAX (Simple API for XML) ， 都 超越 语言 提供 了 几乎 共通 的 
内 容 ， 所 以 不 同 的 语言 也 可 以 进行 同样 的 操作 。 因 为 这 个 性 质 ， 不 同 
平台 之 间 的 信息 交换 性 很 好 ， 也 就 是 说 ，XML 的 互 用 性 很 高 。 


因为 XML 不 依赖 于 语言 ， 且 是 纯 文本 的 ， 所 以 说 它 对 于 平台 的 独立 
0 


最 后 一 个 优点 是 ， 从 SGML 继承 而 来 的 纯 文本 + 标签 的 语法 ， 能 让 人 
马上 明日 数据 具有 什么 样 的 结构 ， 也 即 对 人 而 言 古 一 种 容易 理解 的 结 
构 。 还 有 ， 开 始 和 结束 标签 具有 相同 的 名 字 ， 如 有 宁 因 弄 错 而 失去 了 正 
确 的 艾 套 结构 ， 束 可 以 咏 上 检查 出 来 ， 这 样 能 迅速 发 现 和 修正 编辑 的 


错误 。 


总 结 一 下 ，XML 作为 各 种 数据 交换 格式 的 框架 ， 具 有 优 民 的 性 质 。 换 
言 之 ， 作 为 格式 的 格式 ， 也 就 是 元 格式 ， 它 是 很 优秀 的 。 


XML 是 不 是 最 好 的 元 格式 ， 还 有 异议 ， 也 有 人 认为 Lisp 采用 的 S 式 
更 优秀 。 但 是 ，S 式 作 为 信息 交换 的 格式 ， 没 有 被 规范 化 ， 这 无 疑 是 
它 相 对 于 XML 的 一 个 劣势 。 


13.3.4 ”缺点 在 于 元 长 
有 这 么 多 优点 的 XML， 也 并 非 完 美 无 瑕 ， 批 判 它 的 人 也 不 少 。 


XML 最 为 人 所 诉 病 的 是 效率 低下 。XML 是 以 纯 文 本 形式 表现 的 ， 标 
签 信息 反复 出 现 ， 显 得 很 元 长 。 与 表示 相同 信息 的 二 进 制 数据 相 比 ， 
XML 数据 的 容量 要 大 得 多 。 而 且 ，XML 与 其 他 文本 表现 方式 相 比 

(比如 YAML、JSON 等 ， 后 面 会 讲 到 ) ， 也 要 显得 元 长 。 


效率 低下 不 光 是 体现 在 数据 大 小 上 ， 解 析 XML 时 效率 也 不 怎么 高 。 

与 二 进 制 文件 相 比 ，XML 文件 的 解析 因为 舍 有 大 量 的 字符 串 处 理 ， 而 

容易 变 得 很 慢 。 为 了 解决 这 一 问题 ， 有 人 提议 过 用 XML 的 二 进 制 来 

表现 ， 但 那样 的 话 又 会 失去 它 的 一 个 优点 ， 即 一 看 束 懂 的 易 读 性 。 万 

EU 0 
汶 难 。 


另外 ，XML 虽然 号 称 自己 能 够 表现 数据 结构 ， 对 人 而 言 易 读 ， 但 是 实 
际 上 现在 已 经 认识 到 ， 复 杂 到 一 定 程 度 以 上 的 XML 数据 ， 特 别 是 有 
一 定 结构 的 数据 ， 靠 人 去 读 是 很 不 现实 的 。 一 般 不 是 靠 人 去 读 写 
XML ， 而 是 用 某 种 工具 去 操作 它 。 


说 起 见长 的 标签 所 带 来 的 容易 检 出 错误 这 一 好 处 ， 实 际 上 ， 人 们 在 编 
辑 XML 时 一 般 都 使 用 工具 来 操作 ， 所 谓 易 读 、 易 编辑 这 些 优 点 ， 也 
只 是 在 出 了 什么 问题 ， 需 要 紧急 处 理 ， 靠 人 为 操作 时 才能 体现 出 来 。 


说 得 更 深 一 点 ， 作 为 文本 的 标记 语言 而 诞生 的 XML， 用 其 表现 有 一 定 
结构 的 数据 到 的 好 不 好 还 是 一 个 疑问 。 如 采 只 是 用 于 表现 构造 数据 ， 
比 XML 更 有 效率 的 格式 还 有 好 儿 种 呢 。 而 且 ，XML 原则 上 只 能 表现 
树 结构 的 数据 ， 这 也 是 很 让 人 遗憾 的 。 


总 结 一 下 ，XML 作为 出 于 通用 目的 的 数据 格式 ， 效 率 很 低 。 很 多 所 谓 
的 优点 ， 如 果 场 合 不 对 ， 也 没 多 大 意义 。 有 一 个 说 法 叫 适 材 适 所 ， 
XML 也 有 必要 分 情况 适当 使 用 。 
13.3.5 “不 适合 重视 效率 的 处 理 
知道 了 这 些 优点 和 缺点 ， 也 就 明确 了 XML 的 “用 武之 地 ”。 首 先 ， 
XML 不 适合 的 ， 还 是 重视 效率 的 地 方 。XML 的 见长 性 和 解析 效率 的 
低下 性 ， 对 于 重视 通信 量 和 速度 的 情况 都 不 合适 。 这 些 情 况 下 ， 使 用 
专用 的 协议 或 者 效率 更 高 的 格式 ， 应 该 更 好 。 
另外 ， 对 于 像 配置 文件 那样 的 靠 人 直接 编辑 的 数据 ， 也 不 推荐 使 用 
XML 。 配 置 文件 里 ， 需 要 用 到 XML 的 树 结构 数据 的 地 方 很 少 ， 随 着 
要 素数 的 增加 ， 它 很 快 就 变 得 很 难 读 ， 不 适合 用 XML。 如果 用 于 这 种 
目的 ， 后 面 将 要 讲 到 的 YAML 和 JSON 那 种 更 简单 的 格式 才 合 适 。 
以 上 光 说 了 缺点 ， 那 么 XML 在 哪些 场合 才 真 正 合 适 呢 ? 
看 看 上 述 那些 缺点 的 反面 : 

。 人 一 般 不 直接 接触 ; 


。 复杂 性 不 成 为 问题 ; 


。 效 率 不 成 为 问题 ， 
。 跨 平台 。 


以 上 这 些 场合 是 适合 使 用 XML 的 场所 。 复 杂 性 不 应 成 为 问题 ， 征 指 
将 XML 作为 本 来 的 标记 语言 使 用 的 时 候 ， 标 签 的 密度 不 大 ， 所 以 不 
易 成 为 “ 读 不 慌 的 XML”。 


对 于 作为 数据 进行 处 理 的 情况 ， 如 采 是 读 不 慌 的 XML， 人 了 服 一 看 束 能 
知道 读 不 懂 。 即 使 这 样 也 要 用 的 时 候 ， 十 不 是 对 于 跨越 系统 处 理 数 据 
以 及 数据 的 跨 平 台 性 有 要 求 哇 ? 比如 说 ， 多 个 系统 共享 数据 (而 且 不 
征 频繁 访问 ) 的 时 候 。 


13.3.6 ”适合 于 信息 交换 的 格式 


想 想 这 些 ， 会 让 人 觉得 XML 其 实 也 没有 所 说 的 那么 万 能 。 即 使 这 

样 ， 仍 然 有 几 种 适合 使 用 XML 的 情况 ， 其 中 之 一 束 是 以 XML 为 基础 
的 数据 格式 。 利 用 XML 的 元 格式 性 质 ， 定 义 了 多 个 以 XML 为 基础 的 
i 


以 下 列 出 了 几 个 以 XML 为 基础 的 格式 的 例子 。 
。 RSS。Web 网 站 更 新 信息 ; 
。 Atom。RSS 的 代替 ; 
。 ebXML。 电 子 商 务 数据 交换 ; 
。 SVG。 癌 量 一 图 像 表示 :; 
。 SMIL。 多 媒体 及 内 容 控 制 。 
以 上 这 些 都 具有 XML 的 性 质 ， 可 以 用 XML 处 理工 具 简 单 地 解析 。 制 


作 数 据 格式 时 ， 最 秦 烦 的 就 古 制 作 处 理 这 种 格式 的 软件 ， 所 以 ，XML 
与 XML 处 理 库 (及 工具 ) 的 存在 是 很 可 贵 的 。 


另外 一 点 是 XML 数据 库 这 样 的 构造 。XML 数据 库 中 ， 问 题 不 在 于 数 
据 是 不 是 实际 上 以 纯 文 本 的 XML 来 表现 ， 而 在 于 XML 能 够 表现 的 树 
结构 能 够 自由 自在 地 操作 。 也 就 是 说 ， 不 是 带 标签 的 纯 文 本 ， 而 是 由 
带 属性 、 融 内 容 的 节点 所 构成 的 树 结 构 本 身 才 是 重要 的 。 这 样 ， 关 系 
Ee 
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XML 数据 库 中 ， 数 据 无 非 是 保存 在 数据 库 中 (估计 是 用 二 进 制 表 
示 ) ， 表 现 的 见长 性 和 效率 的 低下 性 不 成 为 问题 。 倒 是 后 面 要 讲 到 的 
DOM 那样 的 API 中 重视 树 结构 的 操作 。 

13.3.7 “XML 的 解析 


XML 的 解析 方法 有 好 几 种 ， 这 里 介绍 DOM、SAX 和 XPath，Ruby 中 
提供 这 些 功 能 的 库 REXML 也 一 并 予以 介绍 。 


DOM 


DOM 征文 档 对 象 模型 的 缩写 ， 征 对 读 取 了 XML 数据 的 树 结构 进行 操 
作 的 库 。DOM 提供 的 操作 由 W3C 作为 标准 进行 了 定义 。 


SAX 


SAX 是 Simple API for XML 的 缩写 。 与 将 数据 全 部 恋 入 内 存 的 DOM 
不 同 ， 通 常 ，SAX 以 数据 流 的 形式 读 入 XML， 以 事件 驱动 进行 处 
理 。SAX 中 ， 没 必要 将 数据 全 部 读 入 ， 这 样 往往 处 理 效率 更 高 ， 所 
以 ， 适 合 于 将 XML 变换 为 其 他 形式 的 处 理 ， 反 过 来 说 ， 不 适合 于 对 
树 结构 进行 随机 访问 等 用 途 。 


XPath 


XPath 是 用 于 指定 XML 树 的 一 部 分 的 书写 格式 。 使 用 XPath， 可 以 用 
节点 名 (标签 名 ) 、 属 性 名 或 属性 值 等 来 选择 特定 的 节点 ( 群 ) 。 


13.3.8 XML 处 理 库 REXML 


REXML 是 Ruby 标准 附属 的 XML 处 理 库 。REXML 是 具有 DOM 、 
SAX、SAX2 以 及 XML Pull Parser 等 多 种 功能 的 库 ， 由 住 在 德国 的 


Sean Russel 先生 维护 。 


REXML 全 部 用 Ruby 实现 ， 所 以 速 ) 要 表现 上 人 不 怎么 优秀 。 在 特别 重视 
效率 的 情况 下 ， 也 许 有 必要 用 libxml 等 别 的 XML 处 理 库 。 


现在 来 看 一 看 实际 使 用 REXML 的 程序 吧 。 首 先 从 使 用 DOM 的 程序 
开始 。 图 13-19 的 程序 从 图 13-18 所 示 的 地 址 信息 的 XML 数据 中 ， 提 
取出 姓名 和 住所 并 显示 出 来 。 为 了 使 用 DOM 读 取 XML 数据 ， 需 要 
将 rexml/document 库 加 载 进 来 ， 接 着 生成 供 DOM 操作 的 
REXML : :Document 对 象 ， 然 后 可 以 目 由 访问 树 结构 。elements 方 
法 返回 该 节点 下 配置 的 节点 。 通 过 明确 指定 名 称 ， 也 可 以 只 选择 特定 
的 节点 。 图 13-19 中 程序 的 执行 结果 示 于 图 13-20。 


require 'rexml/document' 


doc = REXML: :Document .new(File.open("address.xml")) 


doc.elements.each("/addressbook/address") do lel| 
print e.elements["name"].text," - ", 
e.elements["address"].text, mAnn 


图 13-19 ”使 用 DOM 的 程序 


本 行 弘 - 松江 市 玉 ; < 造 
必用 研究 所 - 交 鞠 
- | 4-12-3 


南 2-12-5 


图 13-20 DOM 示例 程序 的 执行 结果 


DOM 也 可 用 于 构建 树 结构 (参见 图 13-21) 。 可 以 知道 ， 这 个 程序 执 
行 以 后 ， 会 新 增 一 个 Ruby association 节点。 


require 'rexml/document' 


doc = REXML: :Document .new(File.read("address.xml")) 


address = doc.root.add element("address") 
e = address.add element("name",{"'initial' => 'R'}) 
e.text = "Ruby association" 


= address.add element("zipcode") 
.text = "690-0003" 

= address.add element("address") 
.text =“" 松 江 市 朝日 困 478-18" 


e 
e 
e 
e 


doc.root.elements.each("/addressbook/address") do |el 
puts e.elements["name"].text 
end 


图 13-21 由 DOM 生成 的 树 结构 


DOM 可 以 从 XML 数据 实现 树 结构 ， 并 进行 操作 。 男 一 方面 ，SAX 
一 边 读 取 XML 数据 ， 一 边 根 据 所 直到 的 标签 或 内 容 ， 按 事件 驱动 来 
处 理 XML。 对 于 所 发 生 的 事件 ， 调 用 相应 Listener 对 象 的 方法 。 

在 Listener 类 里 定义 想 要 人 处理 的 事件 所 对 应 的 方法 ， 在 每 次 该 事件 
发 生 时 就 调用 那个 方法 。 


的 基本 使 用 方法 示 于 图 13-22 中 。SAX 产生 的 事件 示 于 表 13-3 


reduire 'rexml/document' 
require 'rexml/streamlistener' 
class MyListener -Listener 类 声明 
include REXML: :StreamListener ~include StreamListener 
def tag_start(name,attrs) < 定义 事件 对 应 的 方法 
print "tag:",name 每 次 事件 发 生 时 调用 的 参数 
if attrs,size > 0 随 事件 而 不 同 ， 比 如 tag_start 
print ",，" ,attrs.inspect 标签 开始 时 ， 参 数 是 标签 名 
end 和 属性 ( 哈 希 ) 
print "\n" 
end 
## 
#) 
def text(content) -本 文 ( 纯 文本 ) 对 应 的 方法 ， 参 数 是 
unless content,.strip == "" 本 文 内 容 (字符 串 ) 
print "text: ", content,"\n" 
end 
end 
end 
filename = ARGV[0] 
REXML: :Document .parse_stream(File.open(filename),MyListener.new) 
1 以 Listener 类 为 参数 ， 调 用 parse_stream 


图 13-22 SAX 的 使 用 方法 


表 13-3 ”SAX 的 事件 


区 
name, pub_sys, long_name,uri 


l element_name, attributes 
生 list 声 attlistdecl 本 
raw_content 
XML 声明 xmldecl version, encoding, standalone 
g 


13-22 中 的 程序 ， 在 与 开始 标签 和 文本 相对 应 的 事件 中 输出 有 关 的 
信息 。 为 了 让 结果 更 容易 看 ， 一 不 表示 空 属 性 ， 二 不 表示 只 有 空白 的 
text 。 对 于 图 13-18 中 的 XML 数据 的 执行 结果 示 于 图 13-23 中 。 


tag:addressbook 

tag:entry 

tag:name, {"initial"=>"M"} 
text :松本 行 弘 

tag:zipcode 

text:699-0201 

tag:address 


J 


text :松江 市 玉 汤 町 玉 造 
tag :te 

text :0852-62-XXXX 

tag:entry 

tag:name, {"initial" => "N"} 


text :网 络 应 用 通信 研究 所 


tag:zipcode 
text:690-0826 
tag:address 

text :松江 市 学 园 南 2-12-5 


tag:tel 

text:0852-28-XXXX 

tag:entry 

tag:name, {"initial" => "R"} 
text :乐天 


tag:zipcode 
text:140-0002 
tag:address 


text :品川 区 东 品 川 4-12-3 
tag:tel 
text:03-0387-XXXX 


图 13-23 ”SAX 的 示例 程序 的 执行 结果 


作为 使 用 SAX 的 一 个 有 实用 性 的 例子 ， 试 着 写 一 个 程序 ， 检 查 所 给 的 
〈 像 是 ) XML 的 数据 是 否 是 良 构 的 。 图 13-24 中 的 程序 用 了 SAX， 

但 Listener 类 中 没有 定义 任何 方法 。 这 样 ， 职 不 处 理 任何 事件 ， 仅 

仅 利 用 了 SAX 的 stream parser 来 检查 能 否 正常 读 进来 。 


require 'rexml/document' 
require 'rexml/streamlistener' 
class WellFormedChecker 

include REXML : :StreamListener 
end 
filename = ARGV[0] 
begin 


REXML: :Document .parse_stream(File.open(filenanme), 
WellFormedChecker .new) 

printf "%s is well-formed\n", filename 
rescue REXML: :ParseException => e 

printf "%s:%s", filename, e 
end 


图 13-24 XML 良 构 性 检查 


13-24 中 程序 的 执行 结果 示 于 图 13-25 中 。 图 13-25a 是 当 参 数 指定 
的 XML 为 良 构 时 的 输出 。 图 13-25b 是 非 良 构 时 (损坏 了 ) 的 输出 。 


(a)well-formed 的 情况 


% xmlcheck.rb address.xml 
address.xml is well-formed 


(b) 损坏 时 的 情况 

% xmlcheck.rb broken.xml 

broken.xml: Missing end tag for 'address'(got "addressbook") 
Line:19 

Position: 564 


Last 80 unconsumed characters: 


图 13-25 XML 民 构 性 检查 程序 的 执行 结果 


最 后 ，REXML 中 XPath 的 使 用 方法 示 于 图 13-26 中 。XPath 在 从 
XML 树 中 抽取 满足 条 件 的 和 点 时 非常 方便 。 


require 'rexml/document' 

doc = REXML: :Document .new(File.read("address.xml")) < 取得 最 初 的 
address 节点 

puts REXML: :XPath.first(doc,"//address") < 输出 :<address> 松 江 市 玉 汤 


日] 玉 造 </address> 

puts REXML: :XPath.match(doc, "//name") < 取得 全 部 name 节点 ， 返 回 数 
# 输出 : 

# <name initial = :MI> 松 本 行 弘 </name> 

# <name initial = 'N'> 网 络 应 用 通信 研究 所 </name> 

# <name initial = 'R'> 乐 天 </name> 

puts REXML: :XPath.match(doc,"//address/name") < 取得 address 节点 的 子 
市 点 name 有 点 ， 返 

# 输出 : 台数 组， 这 次 的 XML 与 
上 面 一 样 


# <name initial = :MI> 松 本 行 弘 </name> 

# <name initial = 'N'> 网 络 应 用 通信 研究 所 </name> 

# ”<name initial = 'R'> 乐 天 </name> 

REXML: :XPath.each(doc,"//address[name/@initial='R']") do |e| = 对 子 


节点 name 的 属性 Initial 是 

puts e R 的 
全 部 address 节点 进行 循环 ， 

# 输出 : 这 次 


的 XML 中 只 有 一 个 这 样 的 节点 


# <name initial = 'R'> 乐 天 </name> 

# <zipcode>140-0002</zipcode> 

# <address> 品 川 区 东 品 川 4-12-3</address> 
# 

# 


<tel>03-0387-XXXX</tel> 
</address> 


图 13-26 ”XPath 的 使 


多 的 功能 ， 
13.3.9 XML 的 代替 
光 说 “XML 并 非 万 能 ” 却 不 介绍 其 替代 品 ， 


方法 


除 此 之 外 ，REXML 还 有 使 用 RelaxNG 的 验证 (validation) 
这 些 就 不 介绍 了 ， 以 后 有 机 会 再 说 吧 。 


等 为 数 众 


也 许 是 不 负责 任 的 。 这 里 介 


绍 一 下 在 各 种 不 同 的 情况 下 ， 比 XML 更 合适 的 技术 。 因 为 这 次 主要 
是 介绍 XML 的 ， 所 以 对 于 其 他 技术 只 介绍 名 称 和 概要 。 有 兴趣 的 请 
自行 查阅 一 下 。 关 于 JSON 和 YAML ， 本 书 第 5 章 有 讲解 。 


JSON (J avaScript Object Notation) 


JSON 是 驶 把 JavaScript 的 对 象 记 法 作为 数据 表现 格式 来 使 用 。JSON 
数据 的 例子 示 于 图 13-27。 


[ 

{ 
"initial™": "M", 
name": "松本 行 3A"， 
"Zipcode": "699-0201", 
"address":; "松江 市 玉 淘 町 玉 造 "， 
"tel: "0852-62-XXXX" 

}, 

{ 
"initial™": "N", 
"name" : "网 络 应 用 通信 研究 所 "， 
"Zipcode": "690-0826", 
"address"; "松江 市 学 园 南 2-12-5"， 
"tel": "0852-28-XXXX" 

}, 

{ 
"initial™": "R", 
"name": ve 
"zipcode": "140-0002", 
"address": "品川 区 东 品 川 4-12-3"， 
"tel": "03-0387-XXXX" 

} 


图 13-27 JSON 数据 的 例子 


13-27 中 的 数据 相当 于 图 13-18 中 的 XML 数据 ， 但 与 XML 不 同 ， 
没有 明确 的 标签 ， 在 表现 上 稍微 快 一 点 。 男 外 ，JSON 不 是 标记 语 
言 ， 不 适合 于 表现 附加 了 信息 的 文本 那样 的 半 结 构 数 据 。 


将 JSON 数据 原封 不 动 地 作为 JavaScript 去 执行 ， 就 可 以 得 到 数据 表 
现 所 对 应 的 对 象 。 但 是 JSON 数据 从 外 部 读 取 的 情况 较 多 ， 实 际 上 作 
为 JavaScript 直接 执行 容易 引起 安全 上 的 问题 ， 即 使 效率 稍微 低 一 
点 ， 也 应 当 使 用 解析 JSON 的 库 。 


正如 其 名 ，JSON 是 JavaScript 的 对 象 表现 ， 作 为 数据 表现 语言 ， 其 语 
法 及 意义 都 定义 得 很 清晰 ， 所 以 Ruby 及 其 他 语言 都 支持 它 。 


YAML (YAML ain't Markup Language) 


前 面 介绍 过 的 YAML， 是 一 种 数据 格式 ， 有 着 一 个 不 知 其 所 云 的 名 
字 ， 即 所 请 “YAML 不 是 标记 语言 ”。YAML 是 作为 XML 的 对 立 面 而 
诞生 的 ， 具 有 以 下 特征 。 


完全 放弃 标记 性 记述 ， 专 注 于 数据 表现 ， 以 缩 进 为 基础 表现 数据 结 
构 ， 不 要 标签 ， 可 以 对 应 各 种 语言 。 结 果 ， 在 用 作 数 据 表现 及 配置 文 
件 时 ， 具 有 易 读 和 不 易 变 复杂 等 优点 。 实 际 上 ，YAML 在 Ruby on 
Rails 中 广泛 用 于 配置 文件 。 


另 一 方面 ，YAML 到 底 还 是 数据 表现 语言 ， 没 有 相当 于 schema 的 东 
和 。 YAML 数据 的 例子 示 
13-28 。 


- initial: M 
name: 松本 行 弘 
zipcode: 699-0201 
address: 松江 市 玉 淘 四 
tel: 0852-62-XXXX 
- initial: N 
name: 网 络 应 用 通信 人 研究 所 
zipcode: 690-0826 
address: 松江 市 学 园 南 2-12-5 


\ 此 . 
v J 吕 


tel: 0852-28 -XXXX 
- initial: R 

name: 乐天 

zipcode: 140-0002 


address: 品川 区 东 品 川 4-12-3 
tel: 03-0387-XXXX ， 


图 13-28 YAML 数据 的 例子 


活用 记号 和 缩 进 的 YAML， 比 JSON 更 简洁 。 考 虑 一 下 是 否 采 用 易 
读 、 易 编辑 的 数据 格式 YAML 吧 ， 应 该 不 错 的 。 但 正如 其 名 ，YAML 
不 是 标记 语言 ， 需 要 使 用 标记 语言 的 时 候 还 是 XML 合适 。 


Binary XML 


XML 效率 低 的 原因 在 于 ， 为 了 在 万 一 遇 到 什么 问题 的 时 候 让 人 容易 
读 ， 采 用 了 元 长 的 纯 文 本 。 这 样 做 虽然 有 这 样 做 的 好 处 ， 但 效率 低下 
的 问题 怎么 部 不 好 解决 。 


这 里 ,与 通常 的 XML 有 等 价 意义 ， 但 效率 更 高 ， 采 用 二 进 制 表现 的 
是 Binary XML 。 但 现状 是 还 没有 Binary XML 的 标准 规格 ， 只 有 多 种 
实现 版 本 。 


Protocol Buffer 


Protocol Buffer (协议 缓冲 ) 是 2008 年 美国 谷歌 (Google) 公司 作为 
公开 源 代码 发 布 的 数据 表现 形式 〈 及 相关 工具 软件 ) 。Protocol Buffer 
是 很 久 以 来 就 在 谷歌 内 部 使 用 的 进程 间 通 信 技 术 。 在 谷歌 数据 中 心 的 
大 量 计算 机 中 运行 的 进程 之 间 ， 进 行 厦 大 量 的 信息 交换 处 理 。 这 些 进 
程 有 的 以 Java 记述 ， 有 的 以 C++ 记述 ， 有 的 则 以 Python 记述 。 为 了 
高 效 通信 ， 谷 歌 采 用 二 进 制 表现 它 ， 时 间 和 空间 效率 都 有 提高 ， 这 是 
一 种 灵活 的 表现 。 


Protocol Buffer 中 ， 使 用 了 一 种 “数据 描述 语言 ?来 定义 数据 结构 ， 然 后 
从 这 个 定义 生成 一 个 库 ， 将 原始 数据 变换 为 二 进 制 表现 (序列 化 ) 


与 此 相 类 似 的 技术 ， 还 有 美国 Facebook 公司 开发 的 ， 后 来 作为 开放 源 
代码 的 Thrift。 与 仅仅 做 序列 化 的 Protocol Buffer 不 同 ，Thrift 连 远 程 
过 程 调用 (remote procedure call) 都 包括 了 。 


米 米 米 


本 世 介 绍 了 XML 的 优点 与 缺点 以 及 其 适用 的 领域 。 男 外 还 介绍 了 在 
XML 不 适合 使 用 的 领域 中 可 以 替代 XML 的 技术 。 


持久 数据 的 重要 性 


世界 上 充满 了 各 种 格式 的 数据 。 表 示 图 像 的 .jpg， 表 示 子 处 理 文档 格 
式 的 .doc， 表 示 用 于 演讲 的 幻灯 片 的 .ppt 等。 每 出 现 一 种 新 的 软件 ， 
ES 
se 


但 是 ， 打 开 某 些 数据 格式 会 成 为 十 分 棘手 的 问题 。 有 一 天 ， 由 于 某 
种 原因 我 需要 取出 目 己 在 学 生 时 代 曾 经 使 用 的 非常 古老 的 数据 。 那 
征 在 现在 已 经 不 再 使 用 的 计算 机 中 运行 过 的 ， 现 在 已 经 不 再 使 用 的 
字 处 理 软件 的 数据 。 数 据 就 在 眼前 ， 但 软件 不 存在 了 ， 台 无 法 读 取 
数据 ， 也 无 法 加 工 处 理 。 当 时 ， 也 没有 别 的 办 法 ， 我 只 能 根据 侥幸 
残留 下 来 的 打印 纸 ， 一 边 看 一 边 再 输入 一 次 ， 总 算 对 付 过 去 了 。 从 
那 以 后 ， 我 对 于 未 知 的 数据 格式 ， 总 有 一 种 挥 之 不 去 的 不 信任 感 。 
将 来 可 能 会 用 到 的 数据 ， 一 定 要 做 一 个 文本 数据 。 


历经 岁月 流逝 仍然 安全 的 数据 格式 ， 应 该 是 文本 文件 吧 。 如 果 是 文 
本 文件 ， 即 便 过 了 10 年 、20 年 、30 年 ， 依 然 能 读 。 实 际 上 ， 很 久 
以 前 ， 我 在 学 生 时 代 所 作 的 毕业 论文 ， 到 了 现在 还 能 读 出 。 即 使 像 
ASCII ~ EUC-JP 一 UTF-8 这 样 ， 字 符 编 码 方式 变迁 了 ， 也 不 至 于 
完全 读 不 出 数据 。 同 样 ， 采 用 纯 文本 的 电子 邮件 ， 这 30 年 来 ， 基 
本 构造 也 没有 变化 。 能 有 这 样 的 安全 稳定 性 真是 了 不 起 。 


本 章 昌 然 对 于 XML 有 者 干 批判 性 的 记述 ， 但 至 少 XML 能 够 作为 纯 
文本 读 入 ， 经 得 起 长 时 间 保 存 这 一 点 ， 还 是 应 该 给 予 正面 评价 的 。 


话 虽 如 此 ， 有 即便 数据 经 得 起 保存 ， 但 你 存 数据 的 媒介 却 义 成 了 问 
题 。 比 如 说 现在 已 经 找 不 到 软盘 弛 动 从 了 。 


不 能 确定 现在 主流 的 硬 列 和 闪存 客 竟 能 用 到 什么 时 候 。 我 学 生 时 代 
的 数据 ， 虽 然 儿 乎 都 拿 出 来 保存 在 磁 珊 里 了 ， 但 已 经 没 办 法 读 出 来 
和 


这 样 看 来 ， 纸 对 于 人 类 文明 来 说 ， 真 是 一 个 伟大 的 发 明 。 如 有 果 不 是 
有 了 像 纸 和 刻 了 文字 的 石头 等 经 久 不 烂 而 且 可 以 读 出 的 媒介 ， 将 来 
人 类 文明 说 不 定 会 遇 到 失去 重要 信息 的 危险 。 


第 14 章 “” 画 数 式 编程 
14.1 新 范 型 一 一 函数 式 编 程 


函数 式 编程 是 全 部 使 用 函数 来 编写 程序 代码 的 编程 方法 。 这 是 可 以 与 
1 
法 。 
关于 函数 式 编程 这 种 叫 法 ， 一 般 认 为 起 源 于 FORTRAN 的 开发 者 John 
Backus 于 1977 年 在 图 灵 奖 授奖 仪式 上 所 做 的 讲演 ， 他 介绍 的 编程 语 
言 FP 是 首先 使 用 这 个 名 字 的 。 

以 函数 为 中 心 的 函数 式 编 程 具有 如 下 的 特征 : 

。 芳 数 本 身 也 作为 数据 来 处 理 〈 第 一 级 函数 ) ， 

。 以 函数 为 参数 的 高 阶 函 数 ; 

。 参数 相同 即 可 保证 结果 相同 的 引用 透明 性 ; 

。 为 实现 引用 透明 性 ， 禁 止 产生 副作用 的 处 理 。 


人 
式 来 编写 。 


谁 也 不 会 否认 计算 机 的 基础 是 数学 。 不 管 是 算法 ， 还 是 计算 机 科学 的 
基础 部 分 ， 都 是 与 数学 密 不 可 分 的 。 画 数 古 数 学 领域 已 经 使 用 了 几 百 
年 的 概念 ， 非 常 适合 于 用 数学 的 形式 来 表 壕 。 


举 个 例子 吧 。 大 家 都 知道 阶乘 的 概念 ， 数 学 上 用 n! 来 表示 阶乘 ， 它 
征 1 到 mn 的 所 有 整数 的 乘积 。 根 据 这 个 定义 ，3 的 阶乘 等 于 1x2x3， 
A ° 稍微 改进 一 下 ， 用 数学 的 形式 来 写 的 话 ， 束 变 成 下 面 的 式 


n!=1 n 等 于 1 的 时 候 


nl! 二 n x (n-1)! ”n>1 的 时 候 


这 个 阶乘 的 定义 是 利用 归纳 法 ， 通 过 阶乘 本 身 来 定义 阶乘 。 


(a) 阶乘 计算 的 结构 化 程序 
def fact(n) 
1 


n 
n 


图 14-1 阶乘 计算 的 程序 


14-1a 是 用 结构 化 编程 方式 编写 的 阶乘 计算 的 程序 。 在 一 次 次 减 小 
n 的 同时 ， 把 n 和 变量 fct 的 乘积 赋 给 变量 fct 。 有 编程 经 验 的 

人 ， 差 不 多 可 以 想象 出 局 部 变量 n 和 fct 的 值 在 计算 过 程 中 变化 的 样 
= 


男 一 方面 ， 图 14-1b 是 用 函数 式 编 程 方式 来 编写 的 阶乘 计算 的 程序 。 
仔细 看 一 下 就 会 明日 ， 这 种 程序 的 写法 与 上 边 阶乘 的 归纳 法 定义 几乎 
° 像 这 样 ， 函 数 式 编程 可 以 把 算法 写 得 非常 接近 于 数学 的 表 
达 形 起 ” 


但 是 ， 并 不 是 所 有 的 软件 都 是 以 数学 算法 为 中 心 的 ， 其 他 时 候 函 数 式 
编程 也 能 有 令 人 欣喜 的 表现 吗 ? 


信奉 函 数 式 编程 的 人 相信 ， 不 管 在 任何 场 含 ， 函 数 式 编程 都 症 有 益 
的 ， 而 这 种 信念 确实 有 其 正确 性 。 


让 我 们 再 回头 来 看 看 图 14-1 的 程序 。 ve bn 
(a) 是 在 改变 变量 值 的 同时 进行 计算 的 。 因 此 ， 需 要 一 直 注 意 着 ， 
个 变量 的 值 现在 是 什么 ， 并 据 此 来 预想 计算 过 程 。 


另 一 方面 ， 采 用 函数 式 编 程 方式 (b) 并 不 改变 变量 的 值 。 实 际 上 它 只 
征 把 阶乘 的 定义 “整数 n 和 它 的 阶乘 之 间 是 这 样 一 种 关系 ” 换 了 个 摘 述 
方式 而 已 。 这 种 编程 方式 中 并 不 包含 状态 或 者 动作 等 信息 ， 仅 仅 是 对 
想 要 做 什么 加 以 描述 ， 这 样 不 容易 出 错 。 


这 种 不 是 描述 动作 ， 而 是 摘 述 性 质 的 编程 方式 称 为 声明 式 编程 。 声 明 
式 描述 是 函数 式 编 程 的 一 大 优点 。 


文 持 这 种 函数 式 编 程 的 语言 有 很 多 。 受 到 数学 强烈 影响 的 函数 式 编 程 
> 很 难 走出 象牙 之 塔 ， 下 面 介绍 其 中 有 名 而 又 实用 的 几 种 语 


14.1.1 具有 多 种 函数 式 性 质 的 Lisp 


不 久之 前 ，Lisp 被 看 成 是 妙 数 式 编程 语言 的 代表 。 实 际 上 也 是 ，Lisp 
的 基础 是 Church 先生 的 lambda 演算 1 ， 函 数 本 身 也 作为 数据 来 处 理 ， 

具有 画 数 的 第 一 级 性 质 ， 并 因此 支持 以 函数 为 参数 的 高 阶 画 数 ， 因 此 
Lisp 具备 函数 式 语 言 的 很 多 性 质 。 


1 lambda 演算 是 指 把 函数 定义 和 执行 抽象 化 的 计算 模型 。 


下 面 来 看 一 下 用 Lisp 编写 的 阶乘 计算 程序 。 除 了 括号 比较 多 之 外 ， 忌 


体 上 讲 与 Ruby 采用 函数 式 编 程 方式 编写 的 阶乘 计算 程序 非常 相似 。 


(defun fact (n) 
(if (= n 1) 
1 


(* n (fact (- n 1))))) 


Us 


Lisp 最 大 的 特征 是 $ 式 记 法 。S 式 是 括号 很 多 的 Lisp 的 记 法 。 初 学 者 
都 非常 讨 大 Lisp 的 括号 ， 但 习惯 了 之 后 ， 吏 会 发 现 它 的 优点 。S 式 无 
与 伦比 的 优点 十 它 彻 属 的 统一 性 。 也 就 是 说 ， 对 Lisp 而 言 ， 不 管 什么 
都 可 以 统一 成 的 单一 形式 。 其 他 语言 只 是 在 函数 调用 时 采用 这 种 形 
式 ， 而 Lisp 的 函数 定义 、 数 据 结构 定义 、 算 式 以 及 流程 控制 等 ， 全 都 
采用 这 种 形式 。 虽 然 也 有 人 讨厌 Lisp 括号 太 多 ， 但 只 要 正确 地 处 理 好 
缩 进 对 齐 ， 这 实际 上 并 不 是 什么 大 问题 。 如 果 使 用 像 Emacs 一 样 文 持 
S 式 的 编辑 硕 ， 它 能 找 出 对 应 的 括号 ， 目 动 调整 缩 进 。 


第 二 个 重要 之 处 在 于 链 这 种 数据 结构 。Lisp 语言 本 名 是 List Processor 
(链表 处 理 器 ) ， 这 从 一 个 侧面 也 说 明了 链 的 重要 性 。 


链 是 一 种 构成 树 结构 数据 的 通用 数据 结构 ， 构 成 数据 结构 的 节点 分 别 
包含 两 个 引用 。 


Lisp 把 节点 称 为 cons 单元 ， 第 一 个 引用 称 为 car ， 第 二 个 引用 称 为 
cdr ， 其 中 cons 这 种 叫 法 来 自生 成 新 单元 的 函数 cons (construct 
的 省 略 ) 。 因 为 最 初 的 Lisp 处 理 需 把 car 数据 放 在 地 址 寄存 器 ， 把 
cdr 数据 放 在 数据 寄存 器 ， 所 以 contents of address register (地 址 寄存 
句 内 容 ) 省 略为 car ，contents of data register (数据 寄存 器 内 容 ) 省 
略为 cdr 。 


另外 ，cons 单元 以 外 构成 链 的 数据 元 素 〈 符 号 、 数 值 等 ) 称 为 原子 
5 。 所 以 ， 链 就 是 atom 和 cons 单元 构成 的 树 型 数据 结构 
14-2) 。 


{1 {2 3) 和 看) eon. 链 


cons 网 格 


2 4 nil 末尾 ， 空 链 
局 于 


图 14-2 ”Lisp 的 链 


单 看 S 式 的 话 ， 感 觉 链 好 像 跟 数组 是 一 样 的 ， 实 际 上 它 是 像 用 环 链接 
在 一 起 的 递归 数据 结构 。 这 种 递归 数据 结构 非常 适合 于 函数 式 编程 ， 
在 Lisp 以 外 的 函数 式 编程 语言 中 也 得 到 广泛 的 应 用 。 


函数 式 编 程 音 币 通过 目 我 调用 来 实现 递归 调用 ， 利 用 这 种 方式 可 以 很 
目 然 地 处 理 链 这 样 的 递归 数据 结构 。 


比如 ， 让 我 们 来 定义 一 个 链 的 求 和 画 数 1ist-sum (参见 图 14-3) 。 
list-sum 首先 取出 链 的 头 一 个 数据 (car ) ， 然 后 对 剩 下 的 数据 

(cdr ) 同样 调用 list- sum 函数 ， 最 后 再 求 和 。 链 这 种 数据 结构 是 
~ ， 对 应 的 函数 调用 也 是 递归 的 ， 与 数据 结构 相对 应 的 算法 非常 


(defun list-sum (x) 
(if (null x) 
0 


(+ (car x) (list-sum (cdr x))))) 


图 14-3 ”对 链 进行 求 和 的 List-sum 


综 上 所 述 ，Lisp 具备 了 函数 编程 语言 的 基本 特征 。 但 是 男 一 方面 ， 
Lisp 是 一 种 历史 悠久 的 语言 ， 不 直接 文 持 多 数 纯粹 的 函数 式 编程 语言 
所 拥有 的 副作用 ? 如 回避 以 及 延迟 计算 等 功能 。 它 对 变量 的 赋值 没有 
任何 限制 ， 习 惯 了 结构 化 编程 的 程序 员 〈 比 如 我 ) 在 编写 Lisp 程序 的 
时 候 ， 因 为 括号 太 多 ， 很 难 适 应 函数 式 编程 的 风格 。 当 然 各 有 各 的 选 
择 ， 这 也 不 是 什么 坏事 。 


2 指 因 为 某 种 处 理 而 使 程序 状态 发 生变 化 。 结 果 是 ， 同 样 的 输入 却 不 能 产生 同样 的 输出 。 


近年 来 ， 由 于 像 Haskell 这 样 的 彻底 的 函数 式 编程 语言 的 兴起 ，Lisp 
作为 国 数 式 编程 请 于 在 人 们 心中 的 印象 变 得 越 来 越 淡 薄 。 下 面 束 来 介 
2 Haskell ° 


14.1.2 ”彻底 的 函数 式 编程 语言 Haskell 


Haskell 可 以 说 是 纯粹 的 函数 式 编 程 语 言 。 也 就 是 说 ， 语 言 定义 的 本 号 
与 画 数 式 编 程 密 切 相 关 ，Haskell 编程 与 贸 数 式 编 程 是 不 可 分 割 的 。 使 
用 Haskell 进行 非 画 数 式 编程 也 不 古 完 全 做 不 到 ， 但 确实 是 非 第 困难 


Haskell 是 用 数学 家 和 人 逻辑 学 家 Haskell Curry 的 名 字 命 名 的 。 用 人 名 来 
命名 编程 语言 也 是 很 有 传统 的 (比如: Pascal、Ada、Occaml 和 也 
等 ) 。Haskell Curry 先生 对 函数 的 应 用 很 有 人 研究， 他 的 组 合 论 与 
Alonzo Church 先生 的 lambda 演算 几乎 是 一 样 的 。 男 外 ， 函 数 的 部 分 
应 用 “Curry 化 ”也 是 用 他 的 名 字 来 命名 的 。 
Haskell 语言 有 如 下 特征 : 

。 没有 副作用 ; 

。 高 阶 函 数 ; 


。 函数 部 分 应 用 : 


。 用 对 齐 来 表示 块 。 


其 他 特征 都 与 男 数 式 编程 风格 密切 相 


下 面 对 Haskell 的 主要 特征 加 以 说 明 。 首 先 ，Haskell 程序 基本 上 没有 
副作用 ， 也 就 是 说 ， 不 但 不 能 改变 变量 的 值 ， 就 连 链 的 元 素 也 是 不 能 
改变 的 。 从 某 种 意义 上 说 ， 这 是 一 种 非常 简洁 的 编程 风格 。 


但 是 ， 如 果 不 能 改变 变量 的 值 的 话 ， 那 程序 该 怎么 编写 呢 ? 


首先 ，Haskell 程序 中 看 起 来 像 是 变量 的 名 字 ， 实 际 上 不 过 是 丽 数 参数 
或 是 值 的 别名 。 因 此 ， 根 本 就 不 存在 作为 保存 变量 值 的 变量 。 


Haskell 把 其 他 语言 中 改变 变量 值 的 处 理 ， 都 对 应 为 重 狐 生成 一 部 分 发 
生变 化 的 新 数据 。 因 此 ，Haskell 没有 赋值 ， 只 有 给 式 命 名 ， 称 为 绑 
定 。 


没有 变量 ， 任 何 值 都 不 会 发 生变 化 ， 因 此 ， 只 要 参数 不 变 ， 画 数 的 返 
回 值 也 就 总 古 一 样 的 。 相 同 输入 总 能 返回 相同 结 末 ， 这 种 可 重复 性 对 
测试 程序 非常 有 利 。 这 种 重复 性 也 称 为 引用 透明 性 。 它 和 下 面 的 静态 
多 态 类 型 系统 结合 起 来 ， 使 Haskell 这 种 函数 式 编程 语言 比 其 他 的 编 
程 风 格 更 难以 出 错 。 


Haskell 的 第 二 个 特征 是 高 阶 函 数 把 函数 本 号 作为 数据 来 处 理 。 比 如 ， 
中 没有 循环 控制 结构 ， 循 环 都 是 用 递归 调用 或 者 高 阶 函 数 来 实 
下 ‘| o 


14.1.3 ”延迟 计算 : 不 必要 的 处 理 就 不 做 


第 三 个 特征 延迟 计算 的 意思 是 必要 的 时 候 才 进行 处 理 。 这 个 说 法 不 够 
直观 ， 让 我 们 来 看 看 实际 的 程序 。 图 14-4 中 的 Haskell 程序 类 似 于 
UNIX - head 命令 ， 从 标准 输入 读 取 数据 ， 只 把 前 10 行 输出 到 标准 
输出 设备 中 。 


main = do cs <- getContents 
putStr (headLines 10 cs ) 


headLines n cs = unlines (take n (lines cs)) 


图 14-4 ”使 用 延迟 计算 的 Haskell 程序 


这 里 对 Haskell 的 语法 不 进行 详细 说 明 ， 只 对 构成 程序 的 Haskell 函数 
略 加 讲解 。 


main 是 程序 的 入 口 点 。 执 行程 序 的 时 候 ， 首 先 执 行 main 函数 ， 这 
与 C 很 相似 。do 意味 着 按照 顺序 执行 相同 缩 进 水 平 的 表达 式 。 
getcontents 把 标准 输入 的 数据 全 部 读 进 来 。1ines 返回 按 行 分 割 
后 的 字符 串 列表 。take 是 从 列表 中 取出 前 n 个 元 素 。unlines 是 把 
字符 串 的 列表 合并 成 一 个 字符 串 。 


简单 地 说 ， 图 14-4 中 程序 的 意思 是 ， 读 取 标 准 输入 的 全 部 数据 并 显示 
前 10 行 数 据 。 但 是 ， 这 仅仅 是 程序 的 意思 ， 实 际 执 行 时 的 动作 并 不 一 
定 完全 一 样 。 

例如 ， 当 从 标准 输入 来 的 数据 非常 庞大 的 时 候 ， 该 怎么 处 理 呢 ? 
getContents 表示 把 标准 输入 的 数据 全 部 读 进来 ， 按 照 一 般 的 想 

法 ， 它 会 把 非常 庞大 的 字符 串 全 部 读 进 来 ， 然 后 按 行 进行 分 割 ， 把 前 
10 行 取 出 来 之 后 ， 再 合并 成 一 个 字符 第 并 和 输出。 前 10 行 以 外 的 数据 
读 进 来 吏 扔 挥 ， 根 本 没有 进行 任何 处 理 ， 这 是 很 大 的 当 费 。 


试 厦 用 上 面 的 程序 来 读 取 一 个 192 万 行 、62M 的 文本 数据 。 令 人 吃惊 
的 是 ， 程 序 的 执行 瞬间 完成 ， 也 几乎 没有 占用 什么 内 存 。 


实际 上 在 用 Haskell 对 值 进行 计算 的 时 候 ， 只 进行 必要 的 处 理 ， 
getContents 仅仅 从 标准 输入 读 取 take 要 处 理 的 前 10 行 数据 ， 而 
并 没有 读 取 其 他 数据 ， 这 就 是 延迟 计算 。 


与 一 般 的 编程 语言 不 同 ， 具 有 延迟 计算 性 质 的 编程 语言 在 字面 上 的 意 
思 与 实际 处 理 是 不 一 样 的 。 不 进行 多 余 的 处 理 ， 即 使 中 无 限 连 续 的 数 
据 也 能 处 理 ， 这 是 这 种 语言 的 优点 。 刀 一 方面 ， 程 序 的 语句 与 实际 的 
处 理 不 是 直接 对 应 的 ， 一 旦 出 点 儿 什 么 问题 ， 很 难 判断 间 题 出 在 什么 
地 方 ， 这 是 这 种 语言 的 缺点 。 


14.1.4 灵活 的 “静态 多 态 性 ”类 型 系统 


与 没有 类 型 的 Ruby 语言 不 同 ，Haskell 是 在 编译 时 确定 所 有 变量 类 型 
的 静态 类 型 语言 。 但 实际 上 Haskell 程序 基本 上 没有 必要 给 出 变量 的 


类 型 。 这 是 因为 聪明 的 Haskell 语言 处 理 系统 会 推测 变量 的 类 型 。 


Haskell 的 类 型 系统 不 是 像 C 那样 的 不 完全 类 型 ， 而 古 健全 的 。 因 此 ， 

Haskell 程序 如 末 编 译 不 出 错 的 话 ， 那 束 证 明 该 程序 的 类 型 系统 没有 问 
题 。 这 时 ，Haskell 程序 也 绝对 不 会 发 生 因为 类 型 不 匹配 而 异 间 中断 的 
事情 。 还 有 ， 因 为 类 型 与 算法 的 本 质 是 密切 相关 的 ， 类 型 检查 可 以 排 
除 大 量 的 程序 错误 。 


静态 类 型 因为 缺乏 灵活 性 而 受到 批判 。 像 Java 等 ， 仅 仅 接受 预先 声明 
如 有 果 事 前 准备 不 足 、 接 口 定义 不 够 的 话 ， 很 难 应 对 将 来 的 变 


动态 类 型 语言 不 进行 这 样 的 类 型 检查 ， 显 得 非常 宽容 ， 只 要 拥有 相同 
的 方法 ， 什 么 对 象 都 可 以 ， 这 就 带 来 了 柔软 性 ， 这 种 风格 称 为 duck 
typing ° 

Haskell 利用 多 态 性 的 类 型 系统 和 类 型 推测 ， 在 维持 着 接近 于 duck 
typing 灵活 性 的 同时 ， 也 使 编译 时 的 完全 类 型 检查 成 为 可 能 。 但 是 ， 
如 果 类 型 推测 出 点 儿 问 题 ，Haskell 程序 出 了 类 型 错误 的 话 ， 就 会 出 现 
令 初 学 者 感到 了 恐惧 的 错误 。 

14.1.5 “近代 画 数 式 语 言 之 父 OCaml 


OCaml 也 是 具有 代表 性 的 画 数 式 编程 语言 之 一 。 它 比 Haskell 还 十 
老 ， 说 它 是 近代 画 数 式 语言 之 父 也 毫 不 为 过 。 


OCaml 起 源 于 法 国 ， 在 欧洲 很 受 欢 迎 ，O’Reilly 最 早出 版 的 讲解 
OCaml 的 书籍 就 古 法 语 版 的 。 即 使 没有 这 些 ， 画 数 式 语言 在 法 国 也 是 
备 受 欢迎 的 ， 也 许 是 因为 喜欢 数学 的 人 多 吧 。 
与 Haskell 相 比 ，OCaml 具有 如 下 的 不 同 之 处 : 

。 有 副作用 ; 

。 没有 延迟 计算 ; 

。 具有 强力 的 模块 系统 。 


同样 是 函数 式 语 言 ， 前 面 两 点 表明 了 Haskell 和 OCaml 设计 思想 的 不 
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当然 ，OCaml 也 并 不 推荐 使 用 赋值 以 及 改变 变量 值 等 具有 副作用 的 计 
算 ， 但 与 从 语言 上 禁止 副作用 的 理论 派 Haskell 相 比 ，OCaml 给 人 以 
实用 派 的 印象 ， 在 必要 的 时 候 不 惜 牺牲 一 些 理论 ， 允 许 具 有 副作用 的 
计算 ， 延 迟 计算 也 是 这 样 。 如 果 想 用 OCaml 来 进行 延迟 计算 的 话 ， 需 
要 明确 地 进行 迟延 处 理 。 


虽然 不 像 Haskell 那样 目 然 地 做 到 延迟 计算 ， 但 换 来 的 好 处 是 ， 程 序 
内 容 与 实际 处 理 关 系 接 近 ， 使 人 容易 理解 程序 的 执行 过 程 。 


14.1.6” 强 于 并 行 计 算 的 Erlang 


Erlang 也 是 函数 式 编程 语言 ， 最 近 越 来 越 受 到 关注 。 作 为 函数 式 编 程 
语言 ，Erlang 具有 如 下 令 人 回味 的 两 个 特点 。 


。 受 到 Prolog 的 影响 
。 专用 于 并 行 计 算 


提 到 Prolog， 它 最 早 是 在 第 5 代 计 算 机 研究 中 受到 人 们 关注 的 理论 型 
编程 语言 。 虽 然 两 种 语言 都 有 很 强 的 数学 背景 ,但 函数 型 语言 的 诞生 
受到 理论 型 语言 影响 ， 这 对 我 来 说 还 是 一 件 意外 的 事 。 也 许 对 于 具有 
数学 素养 的 人 而 言 ， 这 并 不 是 什么 令 人 吃惊 的 事 。 


与 Haskell 和 OCaml 不 同 ，Erlang 没有 类 型 动态 类 型 ) ， 也 没有 延 
迟 计算 ， 这 也 是 令 人 觉得 有 趣 的 地 方 。 


Erlang 的 存在 意义 就 在 于 并 行 计算 ， 这 种 说 法 上 不 仿 张 。Erlang 的 基 
本 是 基于 actor 理论 的 并 行 计算 。 如 果 不 使 用 actor (Erlang 术语 是 过 
程 ) 的 话 ，Erlang 基本 上 无 法 进行 任何 处 理 。 


Erlang 是 针对 并 行 计算 而 设计 的 ， 这 与 它 古 琅 数 式 编 程 语言 也 不 无 天 
系 。 甚 至 可 以 说 ， 束 是 因为 要 进行 并 行 计算 ， 所 以 才 选 择 了 画 数 式 编 
程 风 格 。 函 数 式 编 程 没 有 副作用 。 改 变数 据 时 的 同步 处 理 是 并 行 计 算 
中 最 矿 烦 的 部 分 ， 而 如 果 根 本 束 没 有 巍 值 、 根 本 束 不 去 改变 数据 的 


话 ， 同 步 处 理 也 就 没有 必要 了 。Erlang 程序 就 不 必 担 心 数据 访问 的 同 


步 问 题 。 


忠 今 后 CPU 的 发 展 方 同 而 言 ， 不 能 再 指望 单个 CPU 的 处 理 速度 飞速 
提高 ， 理 所 当然 是 在 一 合计 算 机 上 安 逆 多 个 CPU， 萌 多核 方 同 发 展 。 
在 多 核 时 代 ， 软 件 也 需要 适应 多 核 ， 但 对 我 们 来 说 ， 并 行 编程 还 是 一 
个 非常 困难 的 领域 。 以 Erlang 为 起 点 的 轴 数 式 编 程 语言 ， 没 有 副作用 
也 不 需要 同步 ， 具 有 非常 适合 于 并 行 计算 的 性 质 。 


14.1.7 用 Ruby 进 行 画 数 式 编程 


那么 让 我 们 来 看 一 下 ， 如 果 用 面 同 对 象 的 编程 语言 Ruby 来 进行 函数 
式 编 程 的 话 ， 应 该 怎么 做 呢 ? 


从 男 数 式 编程 观点 来 看 Ruby 的 话 ， 有 几 点 需要 留意 的 地 方 。 首 先 ， 

最 重要 的 一 点 就 是 Ruby 没有 函数 。 

Ruby 的 各 种 处 理 全 是 方法 ， 也 就 是 说 任何 处 理 总 是 和 某 个 对 象 紧密 地 
结合 在 一 起 。 比 如 ， 即 使 是 输出 的 print ， 它 也 是 0bject 类 的 方 
法 ， 只 是 因为 所 有 的 类 都 是 从 0bject 继承 的 ， 所 以 可 以 省 略 调用 的 
对 象 ， 使 用 时 看 起 来 像 画 数 一 样 。 

这 就 麻烦 啦 。 这 么 说 来 ， 难 道 Ruby 是 不 可 能 进行 函数 式 编程 ? 

哎 ， 没 有 这 样 的 事 。 当 然 Ruby 最 初 不 是 作为 函数 式 编程 语言 而 设计 
的 ， 不 可 能 像 Haskell 一 样 来 进行 函数 式 编 程 ， 但 应 用 Ruby 也 完全 能 够 
实现 函数 式 编程 的 精 散 。Ruby 中 有 几 个 能 进行 画 数 式 编程 的 工具 。 
Proc 对 象 (Lambda ) 

Ruby 中 唯一 与 函数 直接 对 应 的 是 Proc 对 象 。 换 个 说 法 就 是 ， 
lambda 方法 返回 的 是 对 象 化 的 处 理 块 。Proc 对 象 的 call 方法 执行 
块 的 处 理 。 


Cy 1.9 中 ， 可 以 用 如 下 的 方式 进行 调用 (注意 括号 前 面 有 一 个 


proc. (arg) 


这 种 处 理 很 类 似 于 其 他 语言 的 范 数 调用 。 

程序 块 

以 程序 块 为 参数 的 方法 等 价 于 函数 型 语言 的 高 阶 范 数 。 也 就 是 说 ， 灵 
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进而 在 Ruby 1.9 中 ， 不 用 lambda 方法 ， 而 用 如 下 的 语法 


->(args){...} 


也 可 以 得 到 Proc 对 象 。 随 着 钞 数 式 编程 风格 的 普及 ， 预 计 a 到 使 用 
Proc 对 和 象 的 机 会 会 越 来 越 多 ， 所 以 增加 了 这 个 比 Lambda 还 简洁 的 
表达 方式 。 


枚 举 器 


枚 举 嚣 古 从 Ruby 1.8.7 开始 正式 引入 的 ， 它 的 each 方法 可 以 循环 返回 
对 象 。 Ruby 没有 延迟 计算 ， 但 使 用 枚 举 器 对 数组 和 列表 进行 循环 ， 可 
以 实现 类 似 于 延迟 计算 的 处 理 。 


避免 副作用 


面向 对 象 的 编程 中 ， 副 作用 是 几乎 无 所 不 在 的 ， 调 用 方法 来 改变 对 象 
人 
益处 的 。 


所 谓 避 人 免 副 作用 ， 就 古 对 生成 的 对 象 ， 尽 量 少 去 改变 其 状态 。 仔 细 想 
一 下 融会 明日 ， 我 们 在 调试 程序 的 时 候 ， 总 是 在 程序 里 到 处 加 入 
print 语句 ， 或 者 用 调试 万 检查 数据 ， 其 最 大 的 原因 束 是 我 们 不 知道 
数据 当前 的 状态 。 


但 是 ， 如 果 不 改 写 数 据 的 话 ， 它 束 总 是 处 于 相同 的 状态 。 因 此 ， 数 据 
状态 变 得 不 明日 的 风险 就 会 剧 减 。 


具体 说 来 ， 避 免 调 用 改变 字符 串 或 数组 内 容 的 方法 (比如 gsub!、<< 
网 全 和 


即使 不 局 限于 使 用 函数 式 编 程 语言 ， 减 少 副作用 也 十 很 有 益处 的 。 
0 0 
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生成 有 三 个 元 素 的 数组 
["abcd"] * 3 
# => ["abcd", "abcd", "abcd"] 


变 第 一 个 元 素 的 内 容 


其 他 的 元 素 也 随 之 发 生变 化 
p a# => ["ABCD", "ABCD", "ABCD"] 


图 14-5 ”关于 副作用 的 例子 


图 14-5 的 程序 首先 生成 一 个 有 3 个 元 素 的 数组 ， 然 后 改变 其 第 一 个 元 
素 (字符 串 ) 的 内 容 。 但 在 这 个 时 候 ， 检 查 一 下 数据 就 会 发 现 ， 本 来 
只 想 改变 第 一 个 元 素 ， 结 有 果 有 是 数组 中 所 有 元 系 的 值 都 被 改变 了 。 


初学 者 看 到 数据 被 出 乎 意料 地 改变 ， 往 往 会 怀疑 <" 这 不 会 是 Ruby 的 程 
序 错误 吧 ”。 实 际 上 因为 数组 各 元 素 引 用 的 都 是 同一 个 字符 串 对 象 ， 所 
以 改变 第 一 个 元 素 也 会 同时 改变 数组 中 其 他 元 素 。Ruby 程序 通过 引用 
i 
| 的 影响 。 


14.1.8 ”用 枚 举 器 来 实现 延迟 计算 


从 Ruby 1.8.7 开始 ， 很 多 以 块 为 参数 的 方法 在 参数 不 是 块 的 时 候 ， 吕 
会 返回 枚 举 右 。 


枚 举 器 就 是 把 循环 用 对 象 来 表达 的 一 种 方法 。 例 如 ， 从 each 方法 返 
J 就 可 以 把 传递 给 each 方法 的 值 按 顺 序 取出 来 (参见 图 
14-6) 。 


e = [1,2,3,4].each 


图 14-6 关于 枚 举 器 的 例子 


使 用 这 样 的 枚 举 絮 可 以 实现 与 Haskell 类 似 的 延迟 计算 。 与 Haskell 的 
列表 不 同 的 是 ， 因 为 Ruby 本 喘 并 不 具备 延迟 计算 的 功能 ， 所 以 对 于 
数组 的 求 值 是 一 下 子 同时 求 出 数组 中 所 有 的 元 素 。 


人 图 14-4 的 Haskell 程序 进行 同样 处 理 的 Ruby 程 
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puts ARGF.readlines.take(10) 


初 看 起 来 ， 它 比 Haskell 版 还 要 短 许多 ， 但 这 个 程序 是 把 标准 输入 的 
数据 全 部 读 进 内 存 的 ， 如 采 传 递 的 数据 非常 大 ， 那 么 占用 内 存 束 会 非 
常 大 ， 执 行 时 间 也 会 变 得 很 长 。 


程序 中 出 现 的 ARGF 是 个 虚拟 文件 ， 代 表 标 准 输 入 或 者 是 用 参数 指定 
的 文件 输入 。ARGF 的 readlines 方法 读 取 ARGF 所 代表 的 虚拟 文 
件 ， 返 回 字 符 串 数组 。take 方法 取出 数组 前 头 的 元 素 (这 里 是 前 10 
行 ) 。take 方法 返回 数组 ， 该 数组 又 作为 puts 方法 的 参数 ， 照 原 
样 打印 到 标准 输出 上 。 


与 Haskell 版 相 比 ，ARGF 本 来 环 是 以 行为 单位 进行 处 理 而 设计 的 ， 
puts 会 把 字符 串 数 组 原封 不 动 地 和 输出， 因为 有 了 这 些 不 同 ， 程 序 变 


得 非常 简 清 。 


这 里 的 问题 在 于 readlines 方法 会 一 下 子 读 取 文 件 的 全 部 内 容 。 实 
际 上 让 这 个 程序 读 一 下 传递 给 Haskell 版 的 同一 文件 时 ， 执 行 时 间 是 
2.19 秒 。 这 里 如 果 能 够 实现 延迟 计算 的 话 ， 程 序 就 会 像 Haskell 版 一 
样 不 进行 多 余 的 读 取 人 处理 ， 程 序 的 执行 就 会 在 一 瞬间 完成 。 


为 此 ， 我 们 把 一 下 子 读 取 全 部 文件 内 容 并 返回 字符 串 数组 的 
readlines 方法 蔡 换 成 返回 枚 举 磊 的 each 方法 。 使 用 each 方法 的 
程序 变 成 下 面 的 样子 (实际 上 ARGF 有 take 方法 ， 本 来 是 不 需要 调 
用 each 方法 的 ， 这 样 程序 会 变 得 更 短 ， 但 为 了 使 用 枚 举 絮 ， 这 里 特 
意 调 用 了 each 方法 ) 。 


puts ARGF.each. take(10) 


因为 传递 给 ARGF 的 each 方法 的 参数 不 是 块 ， 我 们 就 可 以 得 到 一 个 
枚 举 器 ， 它 表示 each 应 该 返回 各 行 数 组 。 


对 同样 的 数据 来 执行 枚 举 占 版 程序 时 ， 这 次 的 执行 时 间 变 成 了 0.02 
秒 。 程 序 执行 速度 提高 了 100 倍 。 按 照 同样 方法 使 用 枚 举 器 的 话 ， 
Ruby 也 可 以 实现 对 无 限 长 列表 的 操作 。 


通过 以 上 的 例子 ， 我 想 读者 已 经 明日 了 ，Ruby 虽然 没有 Haskell 那样 
的 默认 的 延迟 计算 ， 但 如 果 灵 活 运用 枚 举 融 等 工具 的 话 ，Ruby 也 基本 
上 和 能够 很 目 然 地 实现 延迟 计算 。 


14.2 目 动 生成 代码 


置身 于 计算 机 行业 ， 我 们 会 强烈 地 感觉 到 日 本 很 容易 受到 外 国 的 影 
啊 。 计 算 机 技术 差不多 都 来 源 于 外 国 ， 这 也 是 无 可 奈何 的 事 。 在 美国 
制造 的 硬件 体系 结构 的 PC 上 ， 使 用 美国 开发 的 操作 系统 (我 使 用 的 
是 芬兰 开 发 的 ) ， 使 用 的 应 用 程序 也 大 都 是 外 国 开发 的 。 同 样 ， 日 本 
软件 的 流行 也 总 是 落后 于 美国 半年 或 数 年 之 入 ， 只 要 了 解 一 下 海外 的 
情况 ， 大 致 束 可 以 预测 日 本 软件 行业 的 未 来 。 


纯粹 由 日 本 发 明 的 Ruby 也 有 同样 的 倾 同 。 先 是 Ruby on Rails 框架 在 
世界 上 得 到 了 广泛 的 关注 ， 然 后 日 本 国内 也 开始 发 生变 化 ， 以 软件 开 
发 为 生 的 人 也 开始 关注 Ruby。 以 往 总 是 使 用 Java 或 PHP 的 程序 员 也 
开始 考虑 用 Ruby 来 开发 工作 上 的 软件 。 以 前 我 曾经 听 到 过 有 人 说 “ 虽 
然 学 习 了 Ruby， 但 在 工作 中 却 没 有 使 用 的 机 会 ?这样 的 话 ， 现 在 又 感 
觉 到 日 本 也 终于 进步 了 。 但 同时 令 我 痛心 的 承 是 Ruby 在 日 本 的 普及 

也 不 例外 ， 还 是 落后 于 海外 。 


Ruby 终于 在 商业 领域 也 有 了 用 武之 地 ， 这 让 我 感到 由 衷 的 高 兴 ， 同 时 
也 在 考虑 如 何 更 好 地 灵活 应 用 它 。 


14.2.1 在 商业 中 利用 Ruby 


2002 年 在 华盛顿 州 的 西雅图 举行 了 Ruby Conference 2002， 在 这 个 会 
议 上 ， 超 级 程序 员 Andy Hunt 先生 介绍 了 在 工作 中 应 用 Ruby 的 4 个 
阶段 。 


1. 作为 兴趣 来 学 习 的 Ruby。 

2. 作为 个 人 工具 的 Ruby。 

3. 工作 中 作为 辅助 开发 工具 的 Ruby。 
4. 发 布 程序 的 Ruby。 


第 一 阶段 是 作为 兴趣 来 学 习 的 Ruby， 就 是 对 Ruby 有 所 关注 ， 开 始 学 
习 的 阶段 。 通 过 读书 、 运 行 例子 程序 以 及 编写 小 程序 积累 点 经 星 ， 了 
解 Ruby 这 | ] 语 言及 其 背后 的 设计 思想 ， 束 属于 这 个 阶段 。 当 然 不 管 
征 谁 都 是 从 这 里 开始 的 。 


第 二 阶段 是 作为 个 人 工具 的 Ruby， 是 指 在 日 常生 活 中 使 用 Ruby 作为 
工具 的 阶段 。 比如 ， 整 理 数码 相机 照片 的 小 程序 ， 每 天 监视 日 志文 
件 ， 发 现 异 常 时 发 邮件 通知 的 程序 。 使 用 Ruby 的 话 ， 可 以 很 简单 地 
编写 这 样 的 小 程序 ， 实 际 上 我 以 前 也 编写 过 不 少 这 样 的 程序 ， 现 在 平 
常 还 在 使 用 。 


第 三 阶段 是 工作 中 作为 辅助 开发 工具 的 Ruby， 到 了 这 一 阶段 ， 虽 然 发 
布 的 程序 不 是 用 Ruby 编写 的 ， 但 开始 使 用 Ruby 编写 辅助 开发 工作 的 


四 本 三 


几乎 所 有 的 软件 开发 应 用 都 是 团队 工作 ， 编 写 程序 的 开发 语言 几乎 都 
征 根 据 领导 或 客户 的 意见 来 决定 的 。 在 这 种 情况 下 ， 选 择 C++、Java 
或 者 PHP 的 情况 束 会 比较 多 。 


但 是 ， 关 于 辅助 工具 的 开发 ， 大 都 可 以 由 开发 人 员 目 由 选择 。 测 试用 
工具 、 文 档 生成 工具 、 辅 助 构建 工具 、 统 计 工具 以 及 这 次 要 讲解 的 代 
码 目 动 生成 工具 等 ， 都 是 有 代表 性 的 辅助 工具 。 


最 后 是 喜欢 Ruby 的 人 理想 的 最 高 阶段 ， 发 布 程序 的 Ruby 阶段 。 几 年 
前 除了 非常 有 限 的 环境 ， 这 还 是 像 是 说 梦话 ， 但 近来 随 着 Ruby 知名 
度 的 提高 ，Ruby on Rails 的 强劲 发 展 ， 从 2006 年 前 后 开始 ， 特 别 是 在 
Web 应 用 程序 领域 ,这 已 经 不 再 古 珍 闻 了 。 


亲爱 的 读 首 朋友， 你 处 在 什么 阶段 呢 ? 可 能 大 多 数 都 还 处 在 第 一 或 者 
第 二 阶段 。 但 是 ， 形 势 在 急剧 发 展 变 化 中 。 


14.2.2 ”使 用 Ruby 自 动 生成 代码 


在 上 面 介 绍 的 4 个 阶段 中 ， 本 市 内 容 属 于 工作 中 作为 辅助 开发 工具 的 
Ruby 阶段 ， 具 体 讲解 代码 生成 (Code Generation) 的 技巧 。 


代码 生成 就 是 字面 所 述 的 生成 程序 代码 的 意思 ， 也 就 古 说 ， 利 用 某 种 
模板 编写 程序 ， 让 它 来 目 动 生成 实际 的 应 用 程序 。 


对 于 像 Ruby 这 样 的 动态 语言 ， 代 码 生成 技术 并 没有 什么 很 大 的 效 
果 ， 这 样 的 语言 本 身 具 有 丰富 的 处 理 程序 的 元 编程 功能 ， 并 不 需要 依 
靠 代 码 生 成 ， 就 可 以 实现 对 程序 本 身 的 操作 。 


说 起 来 生成 程序 的 编程 ， 也 许 有 很 多 读者 朋友 会 感到 不 知 所 云 。 也许 
和 


为 此 ， 让 我 们 首先 来 看 几 个 例子 ， 代 码 生 成 在 其 中 发 挥 了 重要 作用 。 


大 家 在 编程 的 过 程 中 ， 应 该 会 感觉 到 有 时 候 总 是 在 重复 编写 相同 内 容 
的 代码 。 编 程 中 的 代码 重复 是 非 第 恶劣 的 。 发 现 了 代码 重复 ， 束 应 该 


考虑 在 合理 的 代价 范围 内 避免 代码 重复 的 方法 。 


话 虽 然 是 这 样 说 ， 但 并 不 全 都 仅仅 是 抽出 共同 方法 这 种 稍 单 的 情况 。 
像 Java 这 样 的 语言 ， 因 为 没有 C 语言 的 宏 定义 功能 ， 有 些 代码 重复 的 
情况 实在 是 无 法 避免 的 。 


14.2.3 ”消除 重复 代码 


请 看 一 下 图 14-7， 这 是 用 C 来 编写 的 Ruby 源 代 码 的 一 部 分 。 我 们 注 
意 到 ， 先 征 有 一 个 定义 方法 的 画 数 ， 然 后 在 相距 非常 远 的 地 方 ， 又 有 
一 个 登录 该 方法 的 例 程 。 像 这 样 的 话 ， 仅 仅 定 义 了 函数 ， 却 忘记 了 登 
好， 或 者 反 过 来 ， 起 记 定 义 钞 数 了 ， 这 都 不 是 什么 令 人 奇怪 的 事情 。 
不 单 症 有 这 种 可 能 性 ， 在 实际 编程 中 ， 发 生 这 种 错误 的 现象 展 见 不 

鲜 。 只 要 有 发 生 错误 的 可 能 性 ， 这 种 蚀 误 束 一 定 会 发 生 ， 这 束 是 程序 
ya O 〇 


static VALUE 
rb_str_length(VALUE str) 


return LONG2NUM(RSTRING(str)->1len); 
void 
Init_String(void) 


rb_define_method(rb_cstring, "length", rb_str_length, 0); 


} 


图 14-7 Ruby 源 代码 示例 


这 里 如 采 应 用 代码 生成 技术 的 话 ， 仅 仅 给 定义 方法 的 函数 添加 些 附 加 
信息 ， 束 会 目 动 生成 初始 化 例 程 。 比 如 像 图 14-8 这 样 的 写法 。 


/* def String#length(0) */ 
static VALUE 
rb_str_length(VALUE str) 

{ 


return LONG2NUM(RSTRING(str)->1len); 
} 


图 14-8 灵活 应 用 代码 生成 的 Ruby 源 代码 示例 


看 一 下 图 14-8， 我 们 会 明白 ， 仪 仅 是 增加 一 行 注释 语句 ， 函 数 的 登录 
部 分 就 可 以 完全 省 略 不 写 。 图 14-8 中 省 略 了 函数 Init_String() 

， 实 际 上 代码 生成 工具 会 生成 与 之 相当 的 部 分 。 为 了 在 构建 程序 的 时 
候 ， 目 动 生成 省 略 部 分 ， 我 们 只 需要 定义 make 的 规则 ， 在 构建 程序 
的 过 程 中 调用 代码 生成 工具 。 


在 对 象 语言 没有 元 编程 功能 ， 或 者 元 编程 功能 不 强 的 情况 下 ， 代 码 生 
成 最 有 效果 。 具 体 而 言 ， 在 使 用 C、C++ 或 Java 等 语言 的 项 目 中 ， 代 
码 生 成 大 有 用 武之 地 。 


代码 生成 并 不 是 Ruby 所 特有 的 技术 。 实 际 上 ， 有 很 多 用 Java 来 生成 
Java 的 代码 生成 工具 。 比 如 ，O/R 映射 1 的 Hibernate 就 属于 这 样 的 自 
动 生 成 工具 ， 它 用 Java 自动 生成 数据 库 访 问 类 的 代码 。 还 有 ， 

XDoclet 也 是 目 动 生 成 工具 ， 我 们 只 要 给 实体 Bean 类 附加 一 些 
JavaDoc 形式 的 注释 ，XDoclet 就 会 读 取 这 些 信息 ， 目 动 生 成 EJB 框架 
所 需要 的 大 量 文件 (会 话 Bean、 无 状态 SessionBean 等 ) 。 


1 O/R 映射 (Object/Relational mapper) 是 自动 把 对 象 和 关系 型 数据 库 的 表格 对 应 起 来 的 软 
件 o 


14.2.4 代码 生成 的 应 用 


作为 本 节 内 容 的 参考 ， 我 推荐 全 面 讲解 代码 生成 的 书籍 Code 
Generation in Action 。 这 本 书 用 英文 介绍 了 代码 生成 在 各 种 领域 中 的 
应 用 。 这 本 书 封 面 上 并 没有 Ruby 的 字样 ， 但 代码 生成 的 所 有 程序 都 
是 用 Ruby 编写 的 。 


根据 Code Generation in Action ， 代 码 生 成 技术 的 应 用 有 如 下 几 个 方 
面 o 


数据 库 访问 


从 数据 结构 定义 自动 生成 数据 库 访问 例 程 (包括 SQL) 。 比 如 在 使 用 
EJB 框架 的 场合 ， 每 一 个 表 都 需要 生成 好 几 个 文件 ， 总 的 文件 数 有 几 
百 甚 至 上 千 个 ， 也 都 不 是 什么 稀奇 的 事 。 


手工 编写 大 量 的 文件 当然 不 是 聪明 人 应 该 做 的 事 。 代 码 生成 可 以 帮助 
我 们 解决 这 个 问题 。 


用 户 接 口 


大 多 数 依 赖 于 数据 库 的 Web 应 用 程序 ， 常 常 需要 对 表 的 各 项 目 进行 
CRUD 操作 。CRUD 是 Create (新 建 ) 、Read ( 读 取 ) 、Update (更 
新 ) 和 Delete (删除 ) 的 首 字母 缩写 。 在 极端 的 情况 下 ， 如 果 一 个 
Web 应 用 程序 有 10 个 表 ， 就 需要 编写 10x4 种 不 同 的 CRUD 画面 。 在 
这 种 场合 ， 代 码 生 成 也 有 自己 的 用 武之 地 。Ruby on Rails 最 初 也 使 用 
了 同样 的 代码 生成 。 


代码 生成 并 不 仅仅 适用 于 Web。Code Generation in Action 还 介绍 了 
Java 的 GUI 工具 箱 Swing 以 及 MFC (Microsoft Foundation Classes) 
的 对 话 框 目 动 生成 的 例子 。 


单元 测试 


代码 生成 对 单元 测试 也 很 有 效 采 。 只 要 有 数据 和 测试 条 件 ， 束 可 以 开 
始 单元 测试 ， 但 实际 上 开始 测试 时 ， 需 要 编写 很 多 繁琐 的 代码 。 使 用 
代码 生成 技术 ， 和 雷同 部 分 的 测试 代码 束 可 以 放手 目 动 生 成 ， 而 集中 精 
力 搞 好 测试 条 件 。 


对 于 使 用 数据 库 的 应 用 程序 ， 在 测试 之 前 准备 合适 的 测试 数据 也 是 一 

件 非常 麻烦 的 事情 。 代 替 这 种 数据 库 Mock 对 象 代码 ， 从 正式 运行 环 

0 
可 次 o 


客户 界面 
在 需要 往 系统 里 追加 XMLRPC、SOAP 或 者 REST 等 API (应 用 程序 


编程 接口 ) 的 场合 ， 接 受 API 请 求 的 入 口 部 分 (接受 请 求 ， 分 析 数 
据 ， 调 用 实际 处 理 ) 的 代码 都 是 固定 模式 。 这 里 也 有 应 用 代码 生成 的 


文档 化 


代码 生成 也 适合 于 文档 化 。 文 档 本 来 不 是 代码 ， 也 许 严 格 讲 不 能 称 为 
代码 生成 。 


对 于 目 动 生成 的 类 ， 由 人 工 记 入 文档 是 纯粹 的 浪费 ， 当 然 应 该 在 生成 


代码 的 同时 也 自动 生成 文档 。 按 照 JavaDoc (Ruby 有 RDoc) 的 形 
式 ， 在 生成 代码 的 程序 里 写 好 相应 的 文档 ， 应 该 是 个 聪明 的 方法 。 


14.2.5 ”代码 生成 的 效果 


代码 生成 对 负责 开发 的 工程 师 和 以 管理 为 主 的 经 理 都 大 有 神 荔 。 对 工 
程 师 而 言 ， 代 码 生 成 有 如 下 的 好 处 。 


。 改进 质量 。 

。 确保 一 致 性 。 

。 集中 知识 。 

。 增 加 用 于 设计 的 时 间 。 

。 独立 于 程序 实现 的 设计 判断 。 
能 够 灵活 运用 代码 生成 技术 的 项 目 ， 也 都 是 事 出 有 因 的 。 比 如 ， 表 的 
个 数 很 多 ， 要 生成 大 量 雷 同 的 窗口 (页 面 ) ， 这 就 会 带 来 大 量 的 重复 
代码 ， 这 也 就 是 灵活 运用 代码 生成 的 条 件 。 


用 代码 生成 工具 来 统一 处 理 程序 代码 ， 束 可 以 避免 代码 的 分 散 ， 把 重 
和 


这 样 束 可 以 改进 质量 ， 确 保 大 量 雷 同 代码 间 的 一 臻 性。 因为 类 似 的 代 
码 十 由 工具 一 下 子 生成 的 ， 发 生变 化 的 时 候 ， 要 修改 的 地 方 也 十 有 限 
的 ， 有 项 望 提高 生产 率 和 可 维护 性 。 


进一步 讲 ， 要 开发 代码 生成 工具 的 话 ， 首 先 就 会 在 一 开始 的 时 候 ， 充 
分 俩 讨 什么 地 方 是 类 似 的 ， 什 么 地 方 是 不 同 的 ， 这 样 吏 可 以 避免 晕 无 


章法 的 开发 。 因 为 有 了 这 样 的 抽象 化 要 求 ， 束 不 会 迁就 个 别 程序 实现 
的 特殊 要 求 ， 可 以 集中 于 软件 应 该 有 的 样子 而 进行 设计 。 
不 管 怎么 说 ， 合 适 地 运用 代码 生成 ， 束 更 有 可 能 专心 于 正确 的 设计 工 
作 ，Jack Herrington 先生 就 是 这 样 说 的 。 

另 一 方面 ， 负 责 管理 的 经 理 也 可 以 从 代码 生成 获得 如 下 的 好 处 。 

。 提高 成 本 预测 的 可 能 性 ， 简 化 管理 。 

。 提高 产品 质量 。 

。 维持 士气 。 
采用 具有 一 致 性 的 框架 ， 不 仅 给 开发 人 员 带 来 容易 开发 和 维护 的 优 
点 ， 经 理 也 可 以 从 中 获得 容易 预测 成 本 和 管理 开发 人 员 的 好 处 。 代 码 
生成 能 够 实现 的 代码 高 质量 对 经 理 来 说 也 是 件 令 人 高 兴 的 事 。 项 目 具 
有 能 够 更 强 地 适应 变化 的 倾 问 ， 也 就 更 有 可 能 进行 小 而 快 的 敏捷 开发 
。 最后， 对 于 开发 人 员 来 说 ， 因 为 能 够 维持 舒适 的 环境 ， 残 有 可 能 保 
持 开 发 人 员 的 士气 。 


2 敏捷 开发 是 具有 小 而 快 特征 的 软件 开发 方法 论 ， 相 对 于 过 程 与 工具 ， 这 种 开发 方法 更 着 重 
于 个 人 的 相互 作用 。 


但 是 ， 代 码 生成 并 不 是 什么 灵丹妙药 。 仅 仅 是 引入 代码 生成 并 不 能 解 
决 项 目 所 有 的 问题 。 


如 果 不 充 分 分 析 要 开发 的 软件 本 质 ， 准 备 好 高 质量 的 代码 生成 郝 ， 项 
日 就 很 难 取得 成 功 。 也 就 是 说 ， 为 了 从 项 目 中 获得 利益 ， 事 前 的 充分 
准备 是 十 分 重要 的 。 

14.2.6 ”编写 代码 生成 器 
和 于 编写 代码 生成 器 的 工 


对 代码 生成 最 有 帮助 的 工具 铭 怕 要 数 eRuby 了 吧 。Ruby 本 身 也 拥有 优 
越 的 文本 处 理 功能 ， 有 笠 被 Code Generation in Action 选中 作为 开发 工 


具 的 语言 ， 是 适合 于 代码 生成 的 ， 然 而 使 用 eRuby 的 话 ， 在 以 比较 目 
然 的 形式 编写 模板 的 同时 ， 还 可 以 灵活 运用 Ruby 的 处 理 能 力 。 


作为 Web 应 用 程序 的 模板 ， 好 像 使 用 eRuby 的 比较 多 。 但 是， 作为 模 
板 系 统 的 eRuby 本 号 并 不 依赖 于 Web， 也 不 是 只 能 用 来 生成 HTML 。 
依赖 SGML 标签 的 Amrita 模板 系统 相 比 ， 这 是 其 显著 不 同 的 特 


请 看 图 14-9， 这 是 eRuby 程序 的 例子 。 记 号 <% 和 %> 括 起 来 的 部 分 征 
Ruby 程序 。 记 号 外 面 是 照 原样 输出 的 部 分 。 以 记号 <%= 开 始 的 Ruby 
代码 会 把 代码 的 执行 结果 藤 入 到 输出 的 文本 里 。 


现在 时 间 是 <%= Time.now.to_s %> 
<% 3.times do |i| %> 


<%= 1 %> 


图 14-9 ”eRuby 程序 示例 <%%> 括 起 来 的 部 分 代表 Ruby 代码 


要 执行 图 14-9 的 程序 ， 需 要 启动 eRuby 的 处 理 程序 :3 。 使 用 eruby 
的 场合 ， 要 执行 如 下 的 命令 。 


3 eRuby 是 文本 帜 入 型 语言 的 名 称 。eruby 与 erb 是 处 理 命令 的 名 称 。 简 单 而 言 ，eRuby 就 
是 允许 在 普通 文本 中 嵌入 Ruby 的 代码 片段 。 


$ eruby list3.erb 


erb 也 一 样 。 


$ erb list3.erb 


两 者 的 执行 结果 如 图 14-10 所 示 。 其 中 的 空 行 是 没有 输出 的 程序 部 分 
消失 之 后 所 留 下 的 痕迹 。 作 为 代码 生成 对 象 的 编程 语言 大 都 不 对 空 行 
作 任 何 处 理 ， 这 些 部 分 也 束 可 以 忽略 。 


和 时 间 是 Sat Jan 14 00:41:20 JST 2006 


图 14-10 图 14-9 程序 的 执行 结果 ， 崩 入 的 Ruby 代码 被 执行 


在 保存 图 14-9 中 的 文件 时 ， 使 用 了 .erb 的 扩展 名 ， 但 实际 上 扩展 名 没 
有 任何 实际 意义 。 


eruby 与 erb 都 是 处 理 程 序 ， 基 本 上 是 互相 兼容 的 ， 只 有 如 下 3 点 
不 同 。 


1. eruby 是 用 C 编写 的 ，erb 则 是 用 纯 Ruby 编写 的 。 因 此 处 理 速 
度 有 时 会 有 差异 。 


2. eruby 具有 对 应 CGI 的 文件 头 输出 功能 ， 而 erb 则 没有 这 样 的 


3.erb 是 Ruby 的 库 ， 可 以 从 程序 中 简单 调用 ， 而 eruby 则 需要 用 
命令 来 局 动 别 的 过 程 。 
因为 最 后 一 个 特征 ， 使 得 erb 更 适合 于 代码 生成 。eruby 十 独立 的 程 
序 ， 在 Ruby 之 外 需要 单独 安 疼 ” ， 而 erb 则 是 Ruby 的 标准 库 ， 这 一 点 
也 是 很 有 帮助 的 。 


4 eruby 是 与 mod_ruby 一 起 开发 出 来 的 ，mod_ruby 中 包含 了 eruby 的 功能 。 


从 程序 中 使 用 erb 的 时 候 ， 程 序 代码 如 图 14-11 所 示 。 


require 'erb' 


template = ERB.new <<-EOF 
现在 时 间 是 <%= Time.now.to_s %> 
<% 3.times do |i| %> 

<%= i %> 


<% end %> 
EOF 
puts template.result 


图 14-11 使 用 erb 库 的 例子 


首先 ， 以 模板 的 字符 串 为 参数 ， 生 成 ERB 类 的 对 象 。 然 后 ， 调 用 该 对 
象 的 result 方法 来 执行 代码 生成 程序 。 如 果 想 要 在 模板 中 访问 局 部 

变量 的 话 ， 就 需要 在 调用 result 方法 的 时 候 ， 传 递 给 它 保 存 有 局 部 

变量 状态 的 Binding 对 象 。 调 用 binding 方法 可 以 得 到 Binding 对 
象 。 


14.2.7 ”也 可 以 使 用 XML 


如 有 果 利 用 代码 生成 工具 的 开发 团队 的 所 有 开发 成 员 都 对 Ruby 抱 有 好 
感 的 话 ，Ruby 本 里 就 可 以 作为 一 种 DSL? ， 用 来 为 程序 生成 器 生成 输 
入 。 如 有 果 情 况 允 许 的 话 ， 这 是 最 简单 的 啦 。Ruby 解释 大 本 身 会 对 输入 
进行 解析 ， 束 用 不 着 男 外 编写 解析 例 程 ， 也 不 需要 进行 加 工 。 习 惯 之 
后 ， 可 以 完全 抛 痉 烦琐 的 配置 文件 ， 非 常 简单 地 编写 出 代码 生成 僚 。 


5DSL (Domain Specific Language) 是 指针 对 特定 领域 而 强化 功能 的 小 规模 编程 语言 ， 在 第 8 
章 有 讲解 。 


但 是 ， 开 发 团队 中 其 他 开发 人 员 ， 经 理 或 者 客户 可 能 会 这 样 说 : “选择 
用 Ruby 作为 开发 工具 当然 是 你 的 自由 ， 但 总 不 能 强迫 其 他 开发 人 员 
来 都 来 用 Ruby 吧 。” 这 种 场合 ， 最 有 效 的 解决 方法 下 是 : “那么 ， 用 
XML 来 作为 输入 吧 。” 


虽然 不 清楚 详细 原因 ， 但 是 好 像 有 某 种 法 则 ， 很 多 经 理 大 都 能 接受 “要 
是 XML 的 话 ， 那 束 可 以 吧 ”*， 这 是 很 方便 的 事 。 我 们 的 目的 并 不 是 要 
让 经 理 也 言 欢 起 Ruby 来， 而 是 为 了 使 用 代码 生成 来 提高 工作 效率 ， 

所 以 在 XML 这 一 点 上 妥协 也 是 应 该 的 。 


幸运 的 是 ，Ruby 拥有 解释 XML 的 标准 库 REXML 。REXML 提供 操 
作 XML 的 功能 ， 这 里 让 我 们 来 看 一 下 读 取 简单 的 XML 文件， 表示 其 
内 容 的 例子 。 图 14-12 是 把 配置 文件 设计 成 XML 文件 的 例子 。 使 用 


REXML， 用 图 14-13 中 Ruby 程序 读 取 配 置 文件 ， 配 置信 息 表 示 成 
Python 风格 (参见 图 14-14) 。 


<beans> 

<bean name="Employee"> 

<attributes name="name" type="String"/> 
<attributes name="id" type="int"/> 
<attributes name="age" type="int"/> 
<attributes name="section" type="String"/> 


</bean> 

<bean name="Section"> 

<attributes name="name" type="String"/> 
<attributes name="id" type= "int"/> 
</bean> 

</beans> 


EF 


图 14-12 ”作为 配置 文件 的 XML 文件 示例 


reduire 'rexml/document' 


doc = REXML: :Document .new(File.open("conf.Xxm]”") ) 
doc.root.each element("bean"){|elenm| 
printf "class %s:\n", elem.attributes["name" 
elem.each element ("attributes") {lattr| 
printf " %s:%s\n", attr.attributes["name"], 
attr.attributes["type"] 


} 
} 


图 14-13 ”使 用 REXML 的 Ruby 程序 ， 读 取 图 14-12 的 XML 文件 


class Employee: 
name:String 
id:int 

age:int 
section:String 


class Section: 
name:String 
id:int 


图 14-14 图 14-12 与 图 14-13 程序 的 输出 结果 
14.2.8 ”在 EJB 中 使 用 代码 生成 


让 我 们 使 用 以 上 的 工具 来 生成 EJB 的 EntityBean ( 样 ) 的 源 代码 吧 。 
输入 与 图 14-12 的 XML 文件 完全 一 样 。 请 看 sample.rb (参见 图 14- 


15) ， 这 是 EntityBean 样 Java 源 代 码 的 生成 工具 。 因 为 是 例子 ， 生 成 
， EntityBean 实际 上 是 无 法 使 用 的 ， 但 读 了 程序 大 致 可 以 明日 这 个 过 


require 'erb' 
require 'rexml/document' 


doc = REXML: :Document .new(File.open("/tmp/conf .xml")) 
template = ERB.new <<-END 


* The Entity bean for <%= name %> 

* @ejb:bean name="<%= name %>" 

display-name="<%= name %>" 

和 jndi-name= "ejb/<%= name %>" 
local-jndi-name="ejb/<%= name %>Local" 


* 


A 
public abstract class <%= name %>Bean implements EntityBean { 
<% elem.each element("attributes") {|attr| 


aname = attr.attributes["name"].capitalize 
atype = attr.attributes["type"]%> 
J 


* Qejb:persistent-field 
* @ejb:interface-method view-type="both" 


yh 

public abstract <%= atype %> get<%= aname %>(); 
A 

* @ejb:interface-method view-type="both" 

类 类/ 


public abstract void set<%= aname %>(<%= atype %> <%= 
aname ,downcase %> ) ; 


<% } %> 
} 


END 
doc.root.each element("bean") {|elem| 
name = elem.attributes["name" ].capitalize 
open("#{name}Bean.java", "w") {|out| 
out.puts template.result(binding) 


} 
} 
图 14-15” ”Bean 生成 程序 


执行 这 个 程序 之 后 ， 当 前 目录 中 会 生成 各 个 Bean 的 源 代码 文件 。 输 
入 文件 conf ,xml 仅 有 12 行 ， 生 成 的 Java 文件 长 达 80 行 。 


看 了 程序 我 们 知道 ， 程 序 中 定义 了 EJB 所 需要 的 繁杂 的 Getter 和 
Setter， 它 们 的 定义 包括 JavaDoc 注释 。 最 近 像 Eclipse 这 样 的 开发 环 
境 ， 具 有 插入 类 似 的 固定 模式 代码 的 功能 ， 但 我 感觉 ， 考 虑 到 针对 个 
别 项 目的 定制 容易 性 与 应 用 范围 ， 代 码 生 成 具有 更 大 的 可 能 性 。 


已 经 好 久 没 有 接触 Java 程序 了 ， 这 次 为 了 写 这 本 书 ， 又 读 了 些 Java 
程序 ， 和 我 平常 使 用 的 Ruby 相 比 ， 实 在 是 十 分 见 繁 。 当 然 Java 有 
Java 的 优点 ， 但 要 写 的 长 读 的 多 ， 确 实 是 件 不 容易 的 事 。Java 阵营 的 
人 也 理解 这 一 点 ， 所 以 开发 了 像 Eclipse 这 样 的 开发 环境 ， 像 XDoclet 
这 样 的 代码 生成 等 辅助 工具 ， 利 用 它们 来 提高 生产 效率 。 


14.3 ”内 存 管理 与 垃圾 收集 


垃圾 收集 (Garbage Collection，GC) 是 一 种 管理 程序 使 用 的 内 存 区 域 

的 方法 。 使 用 具有 垃圾 收集 功能 的 编程 语言 或 处 理 程序 的 话 ， 程 序 中 

Rs 
年 区 域 。 


14.3.1 内 存 管理 的 困难 


在 垃圾 收集 普及 之 前 ， 内 存 区 域 的 取得 和 释放 完全 十 程序 员 的 责任 。 
即使 是 现在 ，C 或 者 C++ 这 些 编 程 语 言 也 还 是 没有 垃圾 收集 功能 。 


随 看 程序 的 执行 ， 会 使 用 一 些 内 存 区 域 作为 作业 区 。 为 记忆 对 象 、 子 
符 串 和 数组 等 个 别 信息 ， 都 需要 使 用 内 存 区 域 。 没 有 垃圾 收集 的 语言 
一 般 都 提供 有 API， 利 用 这 些 API， 可 以 在 需要 时 向 操作 系统 申请 并 
取得 内 存 ， 使 用 过 之 后 再 把 内 存 区 域 返 回 给 操作 系统 。 


C 语言 从 操作 系统 取得 内 存 的 函数 是 malloc( ) ， 释 放 内 存 的 函数 是 
free()。malloc() 和 free() 的 使 用 方法 见 图 14-16。 


/* 使 用 时 要 包含 stdlib.h include */ 
#include <stdlib.h> 


/* 申请 1024 字 市 的 内 存 区 域 */ 
char *p = malloc(1024); 
if (p == NULL) { 


/* 发 生 错 误 时 返回 NULL */ 


} 


/* 使 用 完 之 后 free () */ 
free(p); 


图 14-16 C 语 言 中 malloc() 和 free() 的 使 用 方法 ， 程 序 必须 明确 调用 free() 


在 C++ 中 ， 为 对 象 申 请 内 存 区 域 时 使 用 new 运算 符 来 代替 malloc() 
， 释 放 内 存 领 域 时 使 用 delete 运算 符 来 代替 free( ) (参见 图 14- 
17) 。 与 使 用 库 函 数 来 实现 内 存 区 域 管理 的 C 语言 相 比 ， 面 向 对 象 的 
C++ 语言 把 对 象 管理 融合 到 了 语言 本 身 。 


class Foo { 


侦 用 new 运算 符 来 申请 内 存 
*p = new Foo(); 


前 误 时 会 发 生 异 常 ， 所 以 不 需要 检查 返 


吏 用 完 之 后 delete 


图 14-17 ”C++ 语言 中 new 和 delete 的 使 用 方法 ， 与 图 14-16 相 比 ， 取 得 内 存 区 域 时 的 错误 处 


理 变 得 简单 了 
像 这 种 “手工 ”管理 内 存 的 方法 ， 很 容易 发 生 各 种 问题 。 
芸 挂 指针 


如 果 把 还 在 使 用 中 的 内 存 区 域 错误 地 调用 free( ) 予以 释放 的 话 ， 束 
会 发 生 巧 挂 指针 (dangling pointer) 的 现象 。 在 此 之 后 ， 错 误 释 放 了 
的 内 存 区 域 可 能 被 程序 用 于 别 的 目的 ， 或 者 返还 给 操作 系统 。 不 管 是 
哪 种 情况 ， 它 都 会 脱离 程序 管理 ， 变 成 预想 之 外 的 状态 。 


这 样 ， 程 序 再 去 访问 该 区 域 的 时 候 束 会 出 蚀 。 在 引用 该 区 域内 容 的 时 
候 ， 多 数 场合 会 读 取 到 被 破坏 的 数据 ， 或 者 十 在 更 新 该 领域 数据 的 时 
候 ， 会 置换 成 预想 之 外 的 数据 。 


内 存 泄漏 


男 一 方面 ， 如 果 忘 记 了 把 申请 的 内 存 区 域 返 还 给 操作 系统 的 话 ， 束 会 
发 生 内 存 泄 漏 (memory leak) 。 这 时 候 因 为 使 用 过 的 内 存 区域 越 积 越 
多 ,程序 占有 的 内 存 就 会 逐渐 增加 。 特 别 是 长 时 间 启 动 ， 连 续 提 供 服 
务 的 常 驻 内 存 型 程序 (daemon) ， 容 易 发 生 内 存 泄漏 ， 导 致 系统 停止 
等 重大 问题 。 


二 重 释 放 


对 已 经 释放 过 的 内 存 区 域 再 次 调用 free( ) 的 情况 也 时 有 发 生 。 这 称 
为 二 重 释放 (double free) 。 这 会 带 来 malloc( ) 和 free( ) 内 部 使 用 
的 数据 区 域 不 一 致 的 问题 。 


想 要 完全 避免 这 些 问题 是 非常 困难 的 。 特 别 是 在 面向 对 象 的 编程 中 ， 
不 仅 存在 大 量 对 象 数据 ， 而 且 对 象 变 得 不 需要 的 时 刻 也 不 明确 。 还 有 
令 人 头痛 的 是 ， 这 些 问 题 大 都 在 犯错 误 的 时 候 没 有 任何 征兆 ， 而 在 之 
后 才 会 暴露 出 来 。 


内 存 泄漏 问题 只 有 在 内 存 占用 量 超出 预想 的 时 候 才 会 显露 ， 而 芯 挂 指 
针 问 题 不 会 发 生 在 释放 使 用 内 存 的 时 刻 ， 而 是 要 到 访问 释放 过 的 内 存 
区 域 时 才 会 出 现 。 程 序 员 往往 会 在 看 起 来 完全 没有 问题 的 地 方 突然 遭 
遇 意 想不到 的 错误 。 


为 检查 出 C 或 C++ 的 内 存 问 题 ，valgrind (http:/valgrind.org/ ) 或 者 
electricfence (http://perens.com/FreeSoftware/ElectricFence/ ) 这 样 的 内 
存 分 析 器 专用 工具 会 起 到 很 好 的 作用 。 使 用 这 些 工 具 ， 可 以 检查 出 以 
下 问题 。 


。 试 图 对 申请 的 内 存 区 域 之 外 的 部 分 进行 访问 。 

。 已 经 释放 过 的 区 域 发 生 二 重 释放 。 

。 内 和 存 泄漏 。 
这 些 工具 可 以 发 现 出 问题 的 内 存 区 域 是 在 程序 的 什么 地 方 申请 的 。 但 
征 ， 因 为 内 存 问 题 的 特殊 性 质 ， 仅 菲 这 些 信息 征 很 难 发 现 所 有 程序 诺 


误 的 
14.3.2 ”垃圾 收集 亮相 之 前 


应 该 管理 的 内 存 区 域 越 来 越 多 ， 内 存 释 放 时 刻 的 管理 也 束 越 来 越 难 ， 
这 是 产生 内 存 问 题 的 原因 。 本 来 像 这 种 大 量 对 象 的 管理 业务 束 不 是 人 
(程序 员 ) 所 能 做 的 。 


人 管理 不 过 来 的 话 ， 就 应 该 放手 让 计算 机 来 做 。 垃 圾 收集 就 是 在 这 样 
的 背景 下 诞生 的 。 令 人 意外 的 是 ， 其 实 垃圾 收集 早 在 1960 年 束 听 昕 险 
地 了 ， 从 现在 说 已 经 是 50 年 前 的 事情 了 。 当 时 编程 语言 Lisp 也 才刚 
刚 诞生 ，Const 单元 要 生成 大 量 对 象 ， 由 人 工 来 明确 管理 是 不 可 能 的 
事情 。 垃 圾 收集 殉 是 为 解决 这 一 问题 而 诞生 的 。 


1 Lisp 的 基本 数据 结构 ， 是 构成 列表 的 节点 。 


从 那 以 后 ， 在 Lisp 与 受到 其 影响 的 语言 中 ， 垃 圾 收集 成 为 常识 。 但 
是 ，FORTRAN、COBOL、C 与 C++ 这 些 得 到 广泛 使 用 的 语言 都 没有 
利用 垃圾 收集 。 这 是 因为 关于 垃圾 收集 ， 有 以 下 这 些 先入 为 主 的 观 


人 
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垃圾 收集 慢 

认为 垃圾 收集 慢 的 观念 只 有 一 半 是 对 的 。 计 算 机 不 可 能 完全 理解 人 的 
意图 。 某 内 存 区 域 是 否 不 再 使 用 ， 计 算 机 不 可 能 完全 正确 地 判断 出 
来 。 本 来 束 古 因为 人 不 能 判断 才 会 发 生 内 存 问 题 的 ， 跟 计算 机 说 “把 所 
有 不 再 使 用 的 内 存 都 找 出 来 "也 属于 无 理 要 求 。 


这 样 的 话 ， 束 只 能 使 用 一 些 别 的 方法 来 找 出 不 再 使 用 的 内 存 。 比 起 人 
工 直 接管 理 内 存 区 域 的 寿命 ， 在 不 要 的 时 刻 再 明确 释放 ， 这 需要 做 些 


多 余 的 工作 ， 所 以 人 们 都 认为 执行 时 间 会 变 长 。 但 是 即使 是 在 人 工 明 
确 释 放 内 存 区 域 的 场合 ， 内 存 管理 也 还 是 需要 一 定 开销 的 。 有 全 究 表 
明 ， 在 某 些 条 件 下 ， 坪 圾 收集 比 手工 管理 内 存 还 更 快 。 


2 Andrew W. Appel, “Garbage Collection can be Faster than Stack Allocation”, Information 


Processing Letters,vol.25, no.4, 1987 ° 


垃圾 收集 可 靠 性 低 


垃圾 收集 可 靠 性 低 的 观念 可 能 是 由 于 个 别 垃圾 收集 处 理 程序 的 质量 不 
高 而 形成 的 。 如 有 果 垃 圾 收集 本 号 有 程序 错误 的 话 ， 这 些 错 误 束 可 能 导 
致 前 面 列举 的 各 种 内 存 问 题 。 实 际 上 ， 我 在 Ruby 的 垃圾 收集 中 也 有 
儿 次 因为 程序 错误 ， 而 给 大 家 市 来 了 很 多 麻烦 。 


但 是 想 一 想 的 话 ， 不 使 用 垃圾 收集 的 时 候 ， 也 会 经 党 发 生 内 存 问题 ， 
程序 本 身 的 可 靠 性 随 之 降低 ， 性 能 也 融 无 从 谈 起 。 结 果 稼 稼 是 程序 员 
在 无 可 蒜 何 的 情况 下 ， 只 好 目 己 想 点 办 法 来 实现 类 似 于 垃圾 收集 的 功 
能 。 与 其 每 次 独 目 实现 垃圾 收集 ， 真 不 如 利用 已 实现 好 的 垃圾 收集 ， 
这 样 才 可 以 最 终 得 到 最 大 的 好 处 。 


Java 语言 的 存在 打破 了 这 两 个 偏见 。1995 年 登场 的 Java 从 一 开始 束 
具备 垃圾 收集 功能 ， 以 后 又 经 过 持续 不 断 的 性 能 改善 ， 扭 转 了 志 圾 收 
集 慢 得 不 能 使 用 的 偏见 。 


在 Java 之 后 诞生 的 编程 序言 ， 不 管 是 否 受 到 Lisp 的 影响 ， 几 乎 都 过 
无 例外 地 拥有 垃圾 收集 功能 。 垃 圾 收集 从 诞生 之 日 起 ， 经 过 了 40 多 年 
的 发 展 ， 终 于 成 为 大 家 认可 的 一 项 特性 了 。 


14.3.3 ”评价 垃圾 收集 的 两 个 指标 


假如 存在 备 有 无 限 内 存 的 计算 机 的 话 ， 垃 圾 收集 是 没有 必要 的 。 现 实 
中 内 存 容 量 是 有 限 的 ， 为 了 最 大 限度 地 利用 有 限 的 内 存 ， 台 需要 有 二 
圾 收集 。 话 虽然 这 么 说 ， 那 毕竟 只 是 受 计算 机 资源 的 制约 ， 这 一 点 是 
不 能 起 记 的 。 垃 圾 收集 所 进行 的 基本 上 都 古 用 户 看 不 到 的 处 理 ， 不 能 
因为 垃圾 收集 而 过 分 影响 处 理性 能 。 


从 这 一 点 出 发 ， 在 评价 垃圾 收集 算法 的 时 候 ， 一 个 重要 指标 惑 是 尽量 
不 要 给 用 户 融 来 影响 ， 不 要 让 用 户 等 待 。 但 是 ， 没 有 任何 算法 能 满足 


4 
潜 。 


垃圾 收集 的 性 能 可 以 由 以 下 两 个 指标 来 测定 。 

生 吐 量 

吞吐 量 (throughput) 是 垃圾 收集 处 理 在 程序 全 部 执行 时 间 中 所 占 的 比 
例 。 当 然 ， 垃 圾 收集 处 理 所 占 的 比例 越 小 越 好 ， 垃 圾 收集 处 理 所 占 的 
比例 大 的 话 (换个 说 法 就 是 吞吐 量 小 ) ， 程 序 整体 的 性 能 就 会 低下 。 
暂停 时 间 

暂停 时 间 (pause time) 是 一 次 垃圾 收集 处 理 所 中 断 的 时 间 。 暂 停 时 间 
过 长 的 话 ， 处 理 的 中 断 时 间 豆 会 变 得 很 显眼 ， 程 序 的 反应 加 会 变 慢 。 
比如 在 射击 游戏 中 ， 如 果 因 为 垃圾 收集 的 处 理 而 导致 游戏 机 无 法 操 

作 ， 并 因此 导致 游戏 结束 的 话 ， 当 然 束 会 激怒 玩 游戏 的 人 了 。 

垃圾 收集 每 次 所 花 的 时 间 会 因 垃 圾 收集 执行 时 对 象 的 总 数 而 变化 ， 暂 
停 时 间 的 指标 有 两 种 ， 一 是 把 垃圾 收集 时 间 求 平均 值 所 得 到 的 平均 斩 
0 

间 。 

那些 实时 性 要 求 高 的 程序 ， 束 很 重视 最 大 暂停 时 间 。 

否 吐 量 和 第 停 时 间 这 两 个 指标 都 好 的 话 当然 比较 理想 ， 但 往往 很 难 达 
到 。 像 批 处 理 这 样 非 对 话 的 处 理 强调 吞吐 量 要 高 ， 而 重视 反应 速度 的 
区 入 式 控 制 或 者 GUI 程序 就 强调 和 暂停 时 间 要 短 。 

Java 运行 环境 中 实现 有 多 种 垃圾 收集 算法 ， 可 以 根据 程序 的 性 质 来 切 
换 合适 的 垃圾 收集 算法 。 

14.3.4 ”垃圾 收集 算法 

垃圾 收集 算法 基本 上 是 如 下 4 类， 还 有 几 种 变形 。 


。 引用 计数 方式 。 


。 标记 和 扫除 方式 。 
。 标记 和 紧缩 方式 。 
。 复制 方式 。 

14.3.5 引用 计数 方式 


引用 计数 方式 在 垃圾 收集 算法 中 具有 最 简单 最 容易 实现 的 特征 。 与 下 
面 要 介绍 的 标记 和 扫除 方式 并 列 ， 都 是 在 早期 (1960 年 ) 发 明 的 。 


以 下 是 它 的 基本 原理 。 


首先 ， 各 对 象 知道 自己 被 从 几 个 地 方 引 用 着 (被 引用 数 、 引 用 计数 
器 ) 。 然 后 ， 在 引用 增 减 的 同时 也 相应 地 改变 补 引 用 数 。 引 用 计数 器 
变 成 0 的 对 象 ， 也 束 明 确 地 表明 它 不 再 被 其 他 对 象 所 引用 ， 可 以 释放 
它 所 占用 的 内 存 区 域 (参见 图 14-18) 。 


被 引用 计数 器 对 象 

Ey A a A LA 

1 f \ / \ 

1 Es 1 I0 | 

| Wal / \ J 

| be| By 、\ > 

玫 A 从 4 > < 
A 二 AN EN > 人 
/ 1 i , 人 \ 4 和 上 | \ 
(| Ci 6 ;| ) 全 办 
Ul 本 国史 dy 汪汪 到 国光 


图 14-18 引用 计数 方式 的 原理 ， 各 对 象 内 藏 有 被 引用 计数 器 ， 计 数 器 变 成 0 的 对 象 将 被 释放 


分 析 一 个 对 象 将 来 是 否 还 会 被 用 到 ， 理 解 程序 的 意图 来 执行 垃圾 收集 
古 不 可 能 的 事情 。 但 是 ， 如 果 一 个 对 和 象 不 再 锐 其 他 对 象 所 引用 ， 今 后 
忠 确 实 不 再 会 被 用 到 。 垃 圾 收集 算法 的 基本 功能 束 古 找 出 这 些 不 再 被 
引用 的 对 象 。 

引用 计数 方式 的 最 大 优点 就 是 容易 实现 。 这 种 方式 得 到 广泛 的 使 用 ， 


(包括 我 在 内 的 ) 前 几 年 的 C++ 程序 员 几 乎 都 曾经 实现 过 类 似 的 引用 
计数 器 方式 。 


进一步 讲 ， 它 最 大 的 好 处 在 于 当 引 用 数 变 成 0 的 同时 对 象 也 束 随 之 释 
放 。 在 其 他 的 垃圾 收集 方式 中 ， 当 引用 数 变 成 0 之后， 对 和 象 什么 时 候 


被 释放 ， 都 还 是 一 个 未 知 数 ， 而 引用 计数 紫 方 式 可 以 同时 进行 释放 处 
理 。 暂 集 时 间 短 也 是 它 的 优点 。 


另 一 方面 ， 它 有 3 个 缺点 。 最 大 的 缺点 是 它 不 能 释放 有 循环 引用 关系 
的 对 象 群 。 图 14-19 中 的 对 象 a、b、c 不 再 被 外 面 其 他 对 象 所 引用 
但 因为 它们 自己 互相 引用 ， 引 用 计数 器 不 会 变 成 0， 这 样 的 对 象 就 永 
远 不 会 被 释放 。 


| 
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图 14-19 引用 计数 器 方式 无 法 处 理 的 对 象 示例 ， 因 为 有 循环 引用 ， 引 用 计数 器 不 会 变 为 0， 


引用 计数 器 方式 也 有 其 与 生 俱 来 的 缺点 。 因 为 在 引用 增 减 的 时 候 有 必 
要 同时 正确 维护 引用 计数 右 的 增 减 ， 志 了 这 一 点 束 会 市 来 基 挂 指针 或 
内 存 泄 漏 问 题 。 在 语言 处 理 系 统 本 喘 管 理 引用 计数 万 的 场合 ， 还 不 太 
容易 出 问题 ， 而 程序 员 目 己 管 理 引 用 计数 右 的 做 法 ， 没 想到 苋 成 为 程 
序 错误 的 温床 。 


最 后 1 个 缺点 是 ， 引 用 计数 器 的 管理 与 并 行 处 理 不 相 容 。 如 果 多 个 进 
程 同 时 增 减 一 个 引用 计数 器 的 话 ， 殊 会 发 生 引 用 计数 紫 的 值 不 一 致 的 
现象 (从 而 成 为 内 存 故 障 的 原因 ) 。 为 避免 这 一 问题 ， 需 要 在 操作 引 
用 计数 器 的 时 候 进 行 排他 处 理 ， 但 在 频繁 发 生 引 用 操作 的 同时 进行 排 
他 处 理 的 话 ， 会 市 来 巨大 的 (时间) 开销 。 


总 之 ， 这 种 原理 简单 实现 也 简单 的 引用 计数 器 方式 ， 缺 点 很 多 ， 最 近 
已 学 不 他 么 用 了 


现在 ， 采 用 引用 计数 器 方式 的 主要 语言 处 理 系 统 有 Perl 和 Python。 为 
了 回避 循环 引用 问题 ， 它 们 都 组 合 了 其 他 垃圾 收集 方式 。 这 些 语言 基 
本 上 以 引用 计数 器 方式 来 进行 坪 圾 收集 ， 只 有 在 极 个 别 的 情况 下 ， 才 
通过 别 的 垃圾 收集 算法 来 处 理 引 用 计数 右 不 能 回收 的 对 象 。 


14.3.6 ”标记 和 扫除 方式 


标记 和 扫除 方式 是 和 引用 计数 需 方 式 同样 古老 的 垃圾 收集 算法 ， 相 天 
论文 都 同样 发 表 于 1960 年 。 
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图 14-20 ”标记 和 扫除 方式 的 原理 。 (a) 从 根 开始 按 顺序 给 所 有 被 引用 的 对 象 加 上 标记 
(M) ; ”(b) 没有 标记 的 对 象 被 释放 


标记 和 扫除 方式 从 有 可 能 成 为 对 象 引 用 元 的 变数 〈 根 ) 开始 ， 给 被 引 
用 的 对 象 加 上 标记 ， 表 明 它 “活着 ”。 这 种 方式 然后 再 给 标记 对 象 所 引 
放 还 有 其 再 引用 的 对 象 ， 也 都 递归 地 加 上 引用 标记 (参见 图 
14-20a) 。 


这 样 从 根 开始 不 管 是 直接 还 是 间接 ， 只 要 把 所 有 引用 的 对 象 都 加 上 标 
记 的 话 ， 那 没有 标记 的 对 象 束 是 没有 被 引用 的 ， 也 残 是 “已 经 死 了 ”。 


然后 ， 在 所 有 的 对 象 中 找 出 没有 标记 的 对 象 ， 把 它们 作为 垃圾 扫除 出 
去 (参见 图 14-20b) 。 


这 种 标记 和 扫除 方式 虽然 很 上 古老， 但 确实 非常 优秀 ， 现 在 也 还 被 多 种 
处 理 系统 所 采用 。 


但 它 也 有 缺点 。 当 对 象 数目 较 多 的 时 候 ， 性 能 容易 恶化 。 在 标记 的 时 
候 〈 标 记 阶 段 ) 要 访问 生存 着 的 所 有 对 象 ， 在 回收 成 为 垃圾 的 对 象 时 
(扫除 阶段 } ， 按 顺序 访问 所 有 的 对 象 ， 找 出 其 中 “已 经 死 了 ”的 对 
象 。 在 寻找 垃圾 和 扫除 的 过 程 中 ， 基 本 上 不 能 进行 其 他 处 理 ， 垃 圾 收 

集 时 间 长 的 话 ， 会 影响 到 本 来 的 处 理工 作 。 


采用 标记 和 扫除 方式 的 语言 有 很 多 。 我 最 熟悉 的 Ruby 隋 是 个 代表 性 
， 例子 。 除 了 当 对 象 数 目 多 的 时 候 有 时 会 有 问题 外 ， 大 都 执行 得 很 


14.3.7 标记 和 紧缩 方式 


标记 和 紧缩 方式 是 标记 和 扫除 方式 的 变形 。 标 记 处 理 是 一 样 的 ， 后 阶 
段 有 所 不 同 。 


标记 和 扫除 方式 按 顺 序 检查 所 有 的 对 象 来 进行 扫除 ， 标 记 和 紧缩 方式 
移动 生存 中 的 对 象 位 置 来 腾 出 空间 (参见 图 14-21) 
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图 14-21 标记 和 紧缩 方式 的 原 "os 对 象 的 顺序 虽然 有 所 不 同 ， 标 记 处 理 与 图 14-20 是 
样 的 ; 移动 生存 中 的 对 象 ， 腾 出 空间 


标记 和 紧缩 方式 最 大 的 特征 ， 也 是 它 的 优越 之 处 ， 古 把 空间 集中 起 来 
(紧缩 ) 。 紧 缩 的 结果 是 把 没有 释放 而 活 下 来 的 对 象 都 集中 到 了 一 个 
地 方 。 这 样 ， 内 存 访问 束 集 中 到 一 个 局 部 区 域 ， 这 可 以 提高 缓存 功能 
的 效率 。 对 和 象 的 分 配 也 只 是 把 指针 移动 一 下 束 完 成 了 ， 降 低 了 对 象 分 
配 的 开销 ， 这 也 是 它 的 好 处 。 


这 种 方式 的 缺点 是 ， 把 生存 着 的 对 象 全 部 复制 的 紧缩 开销 ， 容 易 比 标 
记 和 扫除 方式 中 执行 扫除 的 开销 还 要 大 。 还 因为 对 象 被 移动 位 置 了 ， 
不 能 应 用 下 文 讲述 的 保守 垃圾 收集 ， 这 也 是 它 的 一 个 缺点 。 


一 部 分 Lisp 处 理 系统 采用 的 是 标记 和 紧缩 方式 ，Java 处 理 系 统 (作为 
多 个 垃圾 收集 算法 中 的 一 个 ) 也 实现 有 标记 和 紧缩 方式 。 


14.3.8 ”复制 方式 


像 标 记 和 扫除 方式 、 标 记 和 紧缩 方式 这 样 “标记 之 后 释放 死 了 的 对 

象 ” 的 算法 ， 标 记 时 间 与 活着 的 对 象 数 成 比例 ， 扫 除 (或 者 紧缩 ) 时 间 
与 总 对 象 数 成 比例 。 因 此 ， 在 分 配 有 非常 多 的 对 象 ， 其 中 几乎 所 有 对 
象 都 要 被 释放 的 场合 ， 扫 除 的 开销 会 变 高 ， 在 性 能 方面 很 不 利 。 与 标 


记 时 间 一 样 ， 要 是 能 够 有 一 种 算法 ， 只 需要 与 生存 着 的 对 象 成 比例 的 
开销 瓯 可 以 回收 内 存 区 域 的 话 ， 岂 不 是 很 好 吗 ? 


基于 这 种 想法 的 算法 是 复制 方式 。 复 制 方式 与 标记 和 扫除 方式 一 样 ， 
人 的 对 象 ， 但 它 不 仅仅 是 加 标记 ， 还 执行 复制 (参见 
14-22) 。 


旧 空 间 新 空间 


图 14-22 复制 方式 的 原理 。 (a) 在 旧 空 间 里 分 配对 象 ; (b) 旧 空 间 填 满 的 时 候 ， 从 根 开始 


复制 方式 把 内 存 空间 分 成 日 空 间 和 新 空间 两 大 块 ， 总 是 在 旧 空 间 中 分 
配对 象 。 旧 空间 爆满 的 时 候 ， 从 根 开 始 扫描 对 象 ， 把 对 象 复 制 到 新 罕 
间 。 这 时 ， 复 制 后 的 引用 也 要 随 之 更 新 。 


递归 地 执行 从 旧 空 间 到 新 空间 的 复制 ， 结 束 的 时 候 就 会 把 所 有 活着 的 
对 和 象 都 移动 到 新 空间 。 不 再 被 引用 的 对 象 都 遗留 在 日 空间 ， 旧 空间 丈 
可 以 整个 地 弃 之 不 用 ， 也 束 避 免 了 扫除 的 开销 。 从 这 之 后 再 把 新 空间 
作为 这 次 的 旧 空 间 来 继续 同样 的 处 理 。 


复制 方式 最 大 的 优点 十， 垃圾 收集 开销 只 与 活着 的 对 象 数 成 比 列 。 与 
标记 和 紧缩 方式 一 样 ， 对 象 的 分 配 开 销 低 也 是 它 的 优 上 后 。 


它 还 有 “局 部 性 ”的 优点 。 复 制 方式 按 顺 序 把 引用 的 对 象 复制 到 新 至 
间 ， 关 系 近 的 对 象 会 被 分 配 在 相近 的 内 存 空间 上 ， 这 称 为 局 部 性 。 


一 


我 们 知道 ， 关 系 近 的 对 象 同 时 被 访问 的 可 能 性 也 高 。 计 算 机 上 因为 有 
缓存 ， 内 存 空 间 相 接近 的 访问 有 可 能 具有 较 好 的 性 能 ， 局 部 性 高 的 程 
序 具 有 提高 性 能 的 优势 。 

另 一 方面 ， 复 制 方式 也 有 缺点。 复制 方式 要 复制 所 有 活着 的 对 象 ， 几 
平 具 有 与 标记 和 紧缩 方式 同样 的 缺点 。 

一 部 分 Lisp 处 理 系统 采用 单纯 的 复制 方式 。 还 有 ， 很 多 Java 虚拟 机 
把 复制 方式 与 其 他 方式 组 合 起 来 ， 提 供 下 文 所 述 的 分 代 坟 圾 收集 。 
14.3.9 ”多 种 多 样 的 垃圾 收集 算法 


垃圾 收集 的 基本 算法 大 致 可 以 归结 为 以 上 4 种， 并 在 此 基础 上 有 各 种 


A 
2 妆 )” 


此 外 ， 还 有 把 基本 算法 组 合 起 来 的 几 种 技术 ， 这 里 介绍 其 中 几 个 具有 
代表 性 的 技术 。 


。 分 代 垃 圾 收集 
。 保守 垃圾 收集 
。 增 量 垃圾 收集 
。 并 行 垃圾 收集 
。 位 图 标志 
这 些 技术 的 组 合 也 是 有 可 能 的 。 
14.3.10 ”分 代 垃圾 收集 
自 先 来 讲解 垃圾 收集 技术 中 最 有 名 最 重要 的 分 代 垃 圾 收集 


(generational GC) 。 


分 代 垃圾 收集 的 基本 思想 是 利用 程序 和 对 和 象 的 性 质 。 一 般 的 程序 都 有 
这 样 一 个 性 质 ， 几 乎 所 有 的 对 象 都 在 比较 短 的 时 间 里 变 成 垃圾 ， 存 活 
时 间 超 过 一 定 程 度 的 对 象 总 是 拥有 更 长 的 寿命 。 


过 命 长 的 对 象 更 容易 活 下 来 ， 帮 命 短 的 对 象 会 在 更 短 的 时 间 内 变 成 世 
圾 ， 因 为 这 一 性 质 ， 就 可 以 重点 对 分 配 之 后 还 没有 怎么 经 过 时 间 的 “年 
0 
立 圾 。 


具体 来 说 ， 分 代 垃 圾 收集 把 对 象 的 内 存 空间 分 成 两 个 ， 分 别 是 容纳 年 
轻 对 象 的 “新 代 ” 用 的 区 域 和 容纳 长 奉 对 象 的 “ 旧 代 ”用 的 区 域 。 有 的 实 
现 按 3 代 以 上 进行 划分 ， 这 里 为 了 简单 说 明 ， 只 考虑 两 代 的 情况 。 


如 果 前 面 关 于 对 象 奉 命 的 假设 成 立 的 话 ， 仪 仅 扫 描 容纳 年 轻 对 象 的 新 
代 空 间 ， 束 可 能 以 非常 高 的 比例 大 量 回 收成 为 垃圾 的 对 象 ， 这 种 只 扫 
描 新 代 区 域 的 回收 称 为 轻 垃 圾 收集 。 


但 是 ， 单 纯 地 只 对 新 代 区 域 扫 摘 ， 释 放 的 算法 是 不 能 达到 民 好 效果 
的 ， 因 为 存在 有 旧 代 区 域 对 新 代 区 域 的 引用 。 


如 采 只 扫描 新 代 区 域 的 话 ， 束 没有 检查 旧 代 区 域 对 新 代 区 域 的 引用 ， 
只 被 旧 代 区 域 引用 的 年 轻 对 象 束 可 能 被 座 判 为 “已 经 死 挥 了 ”。 这 束 会 
市 来 内 存 问 题 。 


分 代 坏 圾 收集 解决 这 一 问题 的 办 法 是 ， 监 视 对 象 的 更 新 ， 在 旧 代 区 域 
引用 新 代 区 域 发 生 的 同时 ， 就 把 这 一 引用 的 记录 例 程 以 及 对 象 的 更 新 
场所 全 都 记录 下 来 ， 这 个 检查 例 程 叫 作 写 屏障 (write barrier) 。 记 录 
日 代 区 域 对 新 代 区 域 的 引用 称 为 记录 和 集 (remembered set) 


旧 代 区 域 中 对 象 一 般 具 有 寿命 比较 长 的 倾 问 ， 但 绝 不 是 说 它 " 总 也 不 

死 ”。 随 着 程序 的 执行 ， 旧 代 区 域 中 也 会 积聚 起 垃圾 。 旧 代 区 域 中 垃圾 
不 回收 的 话 ， 也 会 发 生 内 存 港 凋 ， 所 以 需要 不 时 地 扫描 包括 旧 代 区 域 
在 内 的 所 有 区 域 ， 进 行 全 面 的 垃圾 收集 。 以 所 有 区 域 为 对 象 的 垃圾 收 
集 称 为 全 二 圾 收集 或 重 垃圾 收集 。 


以 上 说 明 的 分 代 垃圾 收集 的 原理 如 图 14-23 所 示 。 


新 代 区 域 昌 代 区 域 


© 

新 代 区 域 旧 代 区 域 

| 本 

| 

(b) | (4) 

| Se 

| La) @—@ 
图 14-23 分 代 垃 圾 收集 的 原 玫 a) 把 夺 命 短 的 新 代 区 域 性 命 长 的 旧 代 区 域 分 隅 来 管 
理 对 象 、 用 记录 集 来 记录 两 者 之 间 的 引用 . (b) 新 代 区 域 中 有 引用 关系 的 对 象 移 到 旧 代 区 域 


中 ， 释 放 没 有 引用 关系 的 对 象 


分 代 垃 圾 收 夺 减少 了 扫描 对 象 的 个 数 ， 有 促 感 子 均 究 人 时 间 的 戏 采 。 
但 是 ， 因 为 要 执行 全 垃圾 收集 ， 最 大 暂 俘 时 间 不 会 得 到 明显 改善 。 


对 于 对 和 象 寿命 bj 假 膏 成立 的 程序 而 言 ， 因 为 减少 本 扫描 对 象 ， 吞吐 量 可 
以 得 到 巨大 改善 。 但 是 程序 的 行为 ， 如 把 对 象 分 成 几 代 ， 在 什么 条 件 
下 进行 重 垃圾 收集 等 ， 会 对 性 能 有 非常 大 的 影响 。 


分 代 垃圾 收集 利用 对 象 寿命 倾向 这 一 性 质 是 一 个 非常 有 趣 的 主意 。 除 
引用 计数 亏 方 式 之 外 ， 分 代 方 法 可 以 与 许多 其 他 垃圾 收集 结合 起 来 使 
用 ， 一 般 与 复制 方式 相 结合 得 比较 多 。 


最 近 几 乎 所 有 的 Java 都 实现 有 分 代 垃 圾 收集 。 男 外 ， 玉 数 型 语言 
OCaml (Objective Caml) 也 采用 了 分 代 垃 圾 收集 。 


14.3.11 ”保守 垃圾 收集 


像 C 这 种 本 来 没有 垃圾 收集 的 语言 ， 吊 译 之 后 没有 体 贸 区 别 整数 和 指 
针 的 信息 。 因 为 CPU 对 两 者 不 加 区 分 ， 所 以 也 束 没 有 这 个 必要 。 通 
常 ， 垃 圾 收集 的 实现 需要 明确 区 分 引用 (指针 ， 而 C 和 C++ 没有 这 
样 的 功能 ， 在 这 样 的 环境 下 实现 垃圾 收集 的 技巧 之 一 称 为 保守 垃圾 收 


集 ee GE) 


其 基本 思想 就 是 如 采 碰 巧 有 整数 的 值 与 引用 相同 的 话 ， 该 对 象 号 有 可 
能 被 引用 ， 也 就 当 它 十 活着 的 。 保 守 束 古 倾 同 于 安全 的 意 轧 。 与 此 相 
对 ， 能 够 明确 区 别 引 用 的 环境 下 的 垃圾 收集 称 为 精确 垃圾 收集 (exact 
GC) 。 


因为 倾 同 于 安全 一 面 ， 保 守 垃 圾 收集 在 C 或 C++ 这 样 没有 垃圾 收集 功 
能 的 语言 中 也 可 以 得 到 实现 ， 这 是 它 的 优点 ， 但 反 过 来 ， 本 来 应 该 回 
收 的 对 象 却 在 意料 之 外 保留 下 来 不 能 回收 ， 这 是 它 的 缺点 。 还 有 ， 它 
不 能 与 复制 垃圾 收集 这 样 需要 移动 对 象 的 垃圾 收集 算法 组 合 使 用 。 


Ruby 采用 的 是 保守 垃圾 收集 。 局 部 变量 可 以 按照 通 并 语言 的 访问 路 径 
来 处 理 ， 系 统 堆栈 部 分 是 当 作 指针 数组 来 扫 摘 的 。Ruby 大 部 分 是 用 C 
编写 的 ， 因 为 有 了 保守 垃圾 收集 ，C 库 的 实现 变 得 非常 简单 。 实际 
上 ，Python 和 Perl 因为 采用 的 是 引用 计数 右 ，C 例 程 内 部 的 引用 数 管 
理 非 常 复杂 ， 侦 然 态 记 增 减 束 会 发 生 内 存 问题 。 在 这 一 点 上 ， 用 C 编 
写 Ruby 扩展 库 的 时 候 ， 基 本 上 不 用 操心 内 存 管理 ， 好 处 十 分 明显 。 


Ruby 以 外 有 一 个 名 为 Boehm GC 
(http://www.hpl.hp.com/pesonal/Hans_Boehm/gc/ ) 的 库 。 它 为 C 和 
C++ 增加 了 垃圾 收集 功能 。Boehm GC 也 同时 实现 了 分 代 垃 圾 收集 。 
Boehm GC 不 仅 用 于 C 和 C++， 在 Scheme 处 理 系统 Gauche 
(http://pratical-scheme.net/gauche/ ) 等 多 种 语言 处 理 系统 中 ， 也 作为 
垃圾 收集 功能 得 到 广泛 的 应 用 。 


14.3.12” 增 量 垃圾 收集 


在 实时 性 要 求 高 的 程序 中 ， 相 对 于 否 吐 量 而 言 ， 更 重视 的 是 最 大 暂停 
时 间 。 比 如 在 机 妖 人 姿势 控制 程序 中 ， 如 采 因 为 垃圾 收集 而 使 控制 暂 
停 哪 人 是 0.1 秒 ， 机 器 人 就 会 摔 倒 。 或 者 是 在 汽车 的 刹车 控制 程序 
中 ， 如 果 因 为 垃圾 收集 而 使 反应 变 慢 的 话 ， 真 是 不 堪 设 想 。 


在 这 类 程序 中 ， 垃 圾 收集 市 来 的 中 断 时 间 必须 是 可 以 预测 的 。 比 如 可 
能 有 类 似 这 样 的 限制 条 件 ， 即 使 是 最 差 的 情况 ， 垃 圾 收集 也 必须 在 10 


量 秒 内 完成 。 


普通 的 垃圾 收集 算法 都 不 能 保证 这 一 点 。 因 为 暂 集 时 间 会 随 着 对 和 象 数 
量 和 状态 而 改变 。 为 保证 实时 性 ， 不 需要 等 垃圾 收集 完全 执行 结束 ， 


而 是 要 把 垃圾 收集 处 理 细 分 成 许多 细小 的 片段 ， 每 次 执行 一 点 ， 这 叫 
增 量 垃圾 收集 。 


增 量 垃圾 收集 在 垃圾 收集 处 理 过 程 中 程序 也 在 同时 执行 ， 引 用 有 可 能 
会 改变 。 结 果 是 垃圾 收集 的 一 致 性 惑 不 能 得 到 保证 。 增 量 垃 圾 收集 为 
避免 这 样 的 问题 ， 采 用 了 与 剑 守 垃圾 收集 相同 的 写 屏 蔽 技术 。 

舱 入 式 处 理 系统 采用 的 是 增 量 垃圾 收集 。 有 名 的 Io 


(http://iolanguage.com/ ) 和 Lua (http://www.lua.org/ ) 都 实现 了 增 量 
垃圾 收集 。 


14.3.13 ”并 行 垃圾 收集 


最 新 配 有 多 个 CPU 核心 的 多 核电 脑 开 始 普 及 起 来 。 不 仅 是 服务 器 ， 美 
Intel 公司 的 Core 2 Duo 是 个 人 电脑 CPU， 使 多 核电 脑 变 得 不 再 黎 
= 


在 这 样 的 多 核 环境 下 ， 灵 活 运 用 线程 可 以 最 大 限度 地 发 挥 多 个 CPU 的 
能 力 。 并 行 垃圾 收集 就 是 要 最 大 限度 地 利用 多 个 CPU 的 能 力 。 

并 行 垃圾 收集 的 基本 原理 与 增 量 垃圾 收集 大 致 是 一 样 的 ， 都 是 利用 写 
屏蔽 来 维护 当前 状态 的 信息 。 有 的 并 行 垃 圾 收集 的 实现 生成 垃圾 收集 
专用 线程 ， 把 垃圾 收集 设计 成 总 是 与 普通 处 理 并 行 执行 。 

美国 Sun 公司 的 Hotspot JVM 等 实现 了 并 行 垃 圾 收集 。 

14.3.14 ”位 图 标记 


以 Linux 为 首 的 UNIX 系列 操作 系统 在 使 用 fork 系统 调用 复制 过 程 的 
时 候 ， 内 存 空间 并 不 进行 复制 而 是 直接 共享 。 


其 中 任何 一 个 过 程 要 往 内 存 里 写 数据 的 时 候 ， 操 作 系统 的 虚拟 内 存 系 
统 都 会 捕 提 到 这 一 要 求 ， 某 个 页 面 要 写 和 数据 时 则 复制 该 页 面 ?3。 这 
个 写 时 复制 (copy-on-write) 功能 可 以 减少 不 必要 的 页 的 复制 ， 从 而 
节约 内 存 空 间 ， 改 善 性 能 。 


3 页 是 虚拟 内 存 管理 内 存 的 单位 。 


不 过 ， 垃 圾 收集 与 这 一 为 写 而 复制 的 功能 兼容 性 不 好 。 给 引用 对 象 设 
置 标记 的 方式 会 因 设置 标记 而 复制 包含 有 该 对 象 的 内 存 页 。 


复制 方式 也 同样 会 产生 大 量 写 内 存 的 操作 。 生 成 子 进 程 处 理 的 程序 ， 
会 在 发 生 垃 圾 收集 的 瞬间 引起 操作 系统 复制 大 量 的 内 存 页 。 利 用 子 进 
程 的 程序 稼 币 会 因为 这 个 内 存 页 复制 而 引发 性 能 问题 。 


位 图 标记 是 在 利用 标记 的 垃圾 收集 中 消减 操作 系统 内 存 页 复制 的 方 
法 。 它 不 在 对 象 里 设置 被 引用 的 标记 ， 而 是 利用 外 部 位 图 区 域 (管理 
用 内 存 区 域 ) 来 保存 引用 标记 。 


结果 ， 只 有 标记 用 的 位 图 部 分 会 发 生 内 存 页 复制 ， 从 而 避免 了 复制 没 
有 实际 更 新 的 对 象 所 在 的 内 存 页 。 


Ruby 的 垃圾 收集 也 有 了 实现 位 图 标记 的 补丁 。Web 应 用 程序 环境 在 
有 的 情况 下 可 以 改善 性 能 。 


4 详细 请 引用 http://www.rubyist.net/~matz/20080205.html#p01 。 


14.4 用 C 语言 来 扩展 


Ruby 是 解释 型 语言 ， 也 就 是 说 ，Ruby 程序 是 由 名 为 Ruby 解释 器 的 程 
序 来 解释 执行 的 。 


提起 解释 器 ， 大 家 都 可 能 觉得 它 是 逐 行 读 取 程序 并 执行 的 ， 实 际 上 
Ruby 解释 右 古 把 要 执行 的 程序 全 部 读 进来 ， 甫 和 完 变 换 成 更 有 效率 的 内 
部 表现 形式 。 解 释 右 对 其 内 部 表现 加 以 分 析 来 执行 程序 ， 但 从 外 部 看 
不 到 Ruby 程序 变换 成 内 部 表现 的 样子 。 


这 十 解释 型 语言 的 特征 ， 也 束 是 说 ， 程 序 修改 之 后 ， 蕊 上 整 可 以 照样 
执行 ， 开 发 周期 非常 快 。 相 对 于 拥有 这 种 性 质 的 解释 型 语言 ，C、 
C++ 或 Java 这 样 的 编译 语言 是 首 移 把 程序 变换 成 计算 机 可 以 直接 执行 
的 形式 ， 然 后 再 从 头 执行 。 


因为 在 执行 程序 的 时 候 ， 编 译 型 语言 不 再 需要 对 原来 的 程序 进行 解释 
和 变换 ， 大 都 速度 较 快 。 但 是 ， 在 开发 过 程 中 需要 有 编译 这 一 步 桑 ， 
而 且 为 了 生成 高 速 执行 形式 ， 编 译 器 要 进行 各 种 各 样 的 处 理 ( 称 为 优 


化 ) ， 开 发 周期 容易 变 长 。10 多 年 前 ， 我 曾 在 某 公司 开发 过 商业 软 
件 ， 当 时 曾 发 生 过 伦 了 一 个 晚上 还 没有 编译 完 的 情况 。 从 那 以 来 ， 计 
算 机 性 能 已 经 得 到 巨大 改善 ， 我 想 现在 不 会 再 有 那样 的 事情 发 生 了 。 


14.4.1 开发 与 执行 速度 的 取舍 


像 这 样 执行 速度 慢 但 开发 周期 快 的 解释 型 语言 ， 与 开发 周期 容易 变 慢 
而 执行 速度 高 的 编译 型 语言 ， 常 常 需要 进行 取舍 。Ruby 的 设计 方针 是 
开发 效率 优 于 执行 效率 ， 选 择 解释 型 的 实现 也 就 是 必然 的 1 。 


1 但 是 ， 现 在 有 多 种 Ruby 执行 系统 并 不 都 是 解释 型 的 。 比 如 xruby 处 理 系统 是 把 Ruby 程序 
编译 成 Java 字 节 人 码 。 


那么 ， 这 个 Ruby 解释 器 (是 我 开发 的 ， 通 称 为 Matz's Ruby 加 
Interpreter， 省 略为 MRI) 又 是 用 什么 语言 开发 的 呢 ? 它 是 用 C 语言 开 
发 的 ? 。 


2 其 他 还 存在 有 用 Java 开发 的 JRuby， 用 C# 开 发 的 IronRuby 以 及 使 用 C++ 与 Ruby 本 身 开发 
的 Rubinius 等 Ruby 处 理 系 统 。 


采用 C 语言 的 理由 如 下 : 
。 我 本 来 是 C 程序 员 ，C 语言 是 我 最 拿手 的 ; 
。 C 人 允许 系统 调用 ， 速 度 高 ; 
。 用 面向 对 象 语言 来 实现 别 的 面向 对 象 语言 的 话 ， 容 易 混 清 对 象 的 


概念 。 


实际 上 ， 我 觉得 用 Java、C# 或 者 C++ 来 开发 其 他 语言 处 理 系统 的 开发 
者 真是 了 不 起 。 


Ruby 解释 器 的 构造 大 致 如 图 14-24 所 示 。 字 句 解析 器 和 语法 解析 器 二 
者 结合 ， 构 成 了 把 Ruby 程序 转换 成 内 部 表现 形式 的 编译 砷 。Ruby 1.8 
的 内 部 表现 是 名 为 构造 树 的 环 状 结构 。Ruby 1.9 也 生成 同样 的 构造 
树 ， 然 后 再 转换 成 名 为 字 市 码 的 字 市 串 ， 这 种 字 市 码 成 为 1.9 版 的 最 
终 内 部 表现 形式 。 


字句 解析 如 
语法 解析 各 


图 14-24 ”Ruby 解释 器 的 构成 


编译 絮 生 成 的 内 部 表现 传递 给 称 为 引擎 的 部 分 。3 引 擎 是 解释 内 部 表 
现 ， 并 实际 上 执行 程序 的 部 分 。1.9 版 的 引擎 解释 的 字 节 人 码 ， 可 以 说 
是 近似 于 虚拟 计算 机 的 机 器 语言 ， 所 以 1.9 版 的 引擎 也 可 以 称 为 
VM， 即 所 谓 的 虚拟 机 (Virtual Machine) 。 


顺便 说 一 下 ，1.9 版 的 VM 的 代码 是 YARV ( 读 成 “ 雅 鲁 布 "或 者 “ 亚 
布 * 的 人 好 像 挺 多 的 ) ， 是 Yet Another Virtual Machine 的 缩写 。 这 是 
因为 当初 开始 开发 YARV 的 时 候 ， 已 经 有 多 个 面 同 Ruby 的 VM 在 开 
发 之 中 ， 而 YARV 则 作为 另 一 个 VM 而 诞生 了 。 结 果 ， 当 时 开发 的 其 
他 的 VM 都 没有 能 够 实现 Ruby 的 所 有 功能 ， 最 终 正式 采用 了 

YARV 。 正 式 采 用 了 之 后 ， 就 不 应 该 再 称 为 Yet Another VM， 也 许 应 
该 改称 The VM 了 ， 但 因为 不 忍心 扔 掉 这 个 长 时 间 叫 惯 了 的 具有 亲切 
感 的 名 字 ， 所 以 也 就 继续 沿用 了 下 来 。 


闲话 休 提 。 引 擎 在 解释 内 部 表现 的 时 候 ， 需 要 其 他 组 件 的 帮助 。 内 存 
和 对 象 的 管理 ， 变 量 访问 和 方法 调用 的 实现 等 ， 都 要 依靠 抵 层 称 为 运 
人 。 运行 库 提供 的 层 强 有 力 的 支持 ， 是 程序 执行 时 不 
可 或 缺 的 部 分 。 


Ruby 利用 的 各 种 类 是 作为 类 库 提 供 的 。Ruby 中 的 这 些 部 分 也 是 用 C 
编写 的 。 像 Ruby 这 样 的 解释 型 语言 ， 因 为 是 经 过 C 编写 的 引擎 来 间 
接 执行 程序 ， 与 一 般 的 编译 语言 相 比 ， 执 行 速度 明显 慢 得 多 (100 倍 


或 者 1000 倍 ) 。 但 是 ， 实 际 上 程序 的 执行 时 间 大 部 分 都 花 在 C 编写 
的 类 库 方 法 内 部 ， 因 此 在 执行 速度 上 很 少 会 产生 那么 巨大 的 差距 。 


14.4.2 扩展 座 
扩展 库 是 指 利用 Ruby 运行 库 的 API， 用 C 定义 的 类 库 。Ruby 的 API 
使 用 C 几乎 可 以 实现 Ruby 所 有 的 功能 。 使 用 这 些 API 可 以 很 简单 地 
实现 如 下 的 功能 。 
是 迷 万 | 天 
访问 实例 变量 。 
调用 方法 。 
调用 块 。 
但 是 ， 如 果 仅 仅 是 要 实现 与 Ruby 同样 功能 的 话 ， 是 没有 必要 特意 用 
C 来 编写 的 。Ruby 能 做 的 事情 就 用 Ruby 来 做 好 了 ， 这 样 既 不 需要 少 
费 编 译 的 时 间 ， 编 写 和 执行 又 都 简单 。 
特意 花 时 间 用 C 来 实现 扩展 库 的 理由 主要 有 以 下 两 点 。 

。 想 要 比 Ruby 执行 速度 快 。 

。 想 使 用 C 可 以 利用 的 库 。 
前 面 已 经 说 过 ，Ruby 是 解释 型 语言 ， 它 的 执行 速度 不 如 像 C 这 样 的 
编译 型 语言 。 如 果 是 绝对 需要 改善 速度 的 程序 ， 用 C 扩展 库 来 实现 其 
中 成 为 瓶 肛 的 部 分 的 话 ， 有 可 能 显著 改善 程序 的 执行 速度 。 
UNIX 系列 操作 系统 的 大 多 数 功 能 都 是 通过 C 可 以 访问 的 库 来 提供 
的 。Ruby 要 想 利 用 这 些 功能 的 话 ， 束 需要 有 一 种 从 Ruby 调用 C 的 
API 的 方法 ， 这 最 简单 的 方法 就 是 利用 扩展 库 。 


14.4.3 ”看 例题 学 习 扩 展 模块 


要 学 习 编 程 的 话 ， 查 看 实际 运行 的 程序 代码 是 最 有 效 的 方法 。 这 次 把 
UNIX 的 简易 数据 库 dbm 作为 例题 。Ruby 附带 有 dbm 人 
展 库 ， 程 序 共有 829 行 ， 提 供 有 非常 丰富 和 复杂 的 功能 。 这 次 让 我 们 
来 作 一 个 简单 的 minidb 。 因 为 一 点 特别 的 原因 ， 我 们 不 用 传统 的 
DBM ， 而 使 用 QDBM 库 。 


这 次 作为 例题 的 minidb 库 由 MiniDB 类 来 实现 ， 其 中 仅仅 定义 5 个 
-hh ° 我 认为 ， 殊 这 些 已 经 足够 让 我 们 掌握 扩展 库 的 基本 使 用 方法 


MiniDB 类 的 规格 如 表 14-1 所 示 ，MiniDB 类 的 用 法 示例 如 图 14-25 
所 示 。 


表 14-1 MiniDB 类 的 方法 


2 


ee 


require 'minidb' 


db = MiniDB.new("/tmp/foo") 
db["abc"] = "123" 

p db["abc"] 

db["def"] = "456" 

p db["def"] 


db.each do |k,v| 
p [k, v] 


# "456" 
# ["abc", "123"] 
# ["def", "456" |] 


图 14-25 使 用 MiniDB 类 的 例子 


让 我 们 以 此 为 基础 来 编写 MiniDB 类 初始 化 部 分 的 程序 。 扩 展 库 初 始 
化 的 时 候 调 用 如 下 的 函数 : 


Init_ 库 名 


库 名 一 般 选 择 为 类 名 的 小 写 形 式 ， 这 次 就 把 它 命 名 为 minidb 。 先 作 
成 一 个 名 为 minidb 的 目录 ， 在 这 个 目录 中 作 一 个 名 为 minidb.,c 的 
文件 。 首 先 来 编写 minidb,c 的 初始 化 部 分 (参见 图 14-26) 。 


#include "gdbm.h" 
#include <ruby.h> 


static VALUE rb_cMiniDB; 
Init_minidb() 
rb_cMiniDB = rb_define class("MiniDB", rb_cObject); 


rb_define alloc func(rb_cMiniDB, minidb_alloc); 
rb_define method(rb_cMiniDB, "initialize", minidb_init, 


rb_define method(rb_cMiniDB, "[]", minidb_get, 1); 
rb_define method(rb_cMiniDB, "[]=", minidb_set, 2); 
rb_define method(rb_cMiniDB, "close", minidb_ close, 0); 
rb_define method(rb_cMiniDB, "each", minidb_each, 0); 
rb_include module(rb_cMiniDB, rb_mEnumerable); 


图 14-26 ”minidb.c 初始 化 部 分 


关于 个 别 的 API 函数 这 里 先 不 作 说 明 ， 我 们 可 以 从 代码 中 的 英文 词 想 
象 出 函数 的 功能 大 致 应 该 是 这 样 的 : 首先 定义 类 ， 然 后 定义 5 个 方 
法 。MiniDB 类 有 each 方法 ， 顺 便 把 Enumerable 模块 包含 进来 。 
有 了 这 一 行 ，MiniDB 类 就 可 以 使 用 Enumerable 模块 提供 的 大 量 方 
法 了 。 


简单 说 明 一 下 Init_minidb 琴 数 内 容 ，rb_define_class 函数 是 
定义 类 的 ， 参 数 是 类 名 和 父 类 ， 它 返回 新 定义 类 的 对 象 。 
rb_define_alloc_func 函数 指定 为 对 象 分 配 内 存 的 方法 。 关 于 这 
个 函数 稍 后 再 作 说 明 。 


这 次 虽然 没有 用 到 ， 但 顺便 说 明 一 下 ， 利 用 
rb_define_class_under 函数 可 以 定义 藤 套 类 。 第 一 个 参数 指定 
舱 套 类 外 侧 的 类 或 者 模块 。 其 余 参数 与 rb_define_class 是 一 样 
的 。 还 有 ， 把 这 些 函 数 名 中 class 的 部 分 替换 成 module 的 话 ， 就 
可 以 定义 模块 。 但 是 ， 模 块 是 没有 父 类 的 ， 所 以 rb_define_ 
module 只 有 第 一 个 参数 。 


使 用 rb_define_method 函数 定义 方法 。 第 一 个 参数 是 拥有 该 方法 
的 类 或 者 模块 对 象 ， 第 二 个 参数 是 方法 名 ， 第 三 个 参数 是 实际 上 实现 
该 方法 的 C 函 数 指针 ， 最 后 第 四 个 参数 指定 C 函 数 所 接受 的 参数 。 当 第 
四 个 参数 是 正 整 数 的 时 候 ， 函 数 接受 同样 个 数 的 VALUE 参 数 (参见 图 
14-27a、b) 。 当 参数 为 -1 的 时 候 ， 画 数 接受 C 的 数组 为 参数 (参见 图 


14-27c) 。 而 在 参数 是 -2 的 上 时候， 函数 接受 Ruby 的 数组 为 参数 (参见 
14-27d) 。 


/* a) 第 四 个 参数 是 9， 没 有 参数 */ 
VALUE funcO(VALUE self) { 


} 


/* b) 第 四 个 参数 是 1， 有 一 个 参数 */ 
VALUE funci(VALUE self, VALUE arg) { 


} 

/* C) 第 四 个 参数 是 -1， 接 受 数 组 为 参数 */ 

/* 注意 参数 的 顺序 是 (argc, argv，self) */ 

VALUE func2(int argc, VALUE *argv, VALUE self) { 
上 


/* d) 第 四 个 参数 是 -2， 接 受 Ruby 数组 为 参数 */ 
VALUE funci(VALUE self, VALUE args) { 


} 


rb_define method(Class, "metho9"，funco，0) 
rb_define method(Class, "methl", funcl, 1) 
rb_define method(Class, "meth2", func2, -1) 
rb_define method(Class, "meth3", func3, -2) 


图 14-27 方法 函数 取得 参数 的 方法 


Ruby 的 方法 具有 可 见 性 ， 并 据 此 决定 什么 地 方 可 以 调用 它 。 
rb_define_method 定义 可 见 性 为 public 的 方法 ， 定 义 其 他 可 见 
性 (private 及 protected ) 方法 的 时 候 ， 分 别 使 用 
rb_define_private_method 和 
rb_define_protected_method 。 这 些 函 数 定义 的 方法 仅仅 是 可 
见 性 有 所 不 同 ， 因 此 参数 与 rb_define_method 是 一 样 的 。 


Ruby 也 可 以 给 个 别 的 对 象 定义 方法 (定义 特殊 方法 ) 。 在 C 的 水 平 上 
可 以 使 用 rb_define_singleton_method 来 定义 特殊 方法 。 第 一 
个 参数 不 是 类 或 模块 ， 而 是 拥有 该 方法 的 对 象 ， 其 他 参数 与 
rb_define_module 都 是 一 样 的 。 


使 用 rb_include_module 函数 在 类 或 模块 中 包含 其 他 模块 。 


14.4.4” QDBM 画 数 


这 次 用 到 的 QDBM 函数 如 图 14-28 所 示 。 


/* 打开 数据 库 */ 
DEPOT *dpopen(const char *name, int omode, int bnum); 


/* 从 DBM 取得 数据 */ 
一 般 指 定 start 为 0，max 为 -1 */ 


字符 串 的 长 度 保存 在 变量 ksiz 里 */ 
/* 返回 的 字符 串 需要 free */ 
char *dpget(DEPOT *depot, const char *kbuf, int ksiz, int start, 
int max, int *len); 


主 DBM 保存 数据 */ 

/* dmode 可 以 指定 下 面 其 中 一 个 */ 

/* DP_DOVER - 覆盖 */ 

/* ”DP_DKEEP - 不 覆盖 */ 

/* DP_DCAT - 追加 */ 

int dpput(DEPOT *depot, const char *kbuf, int ksiz, const char 


入 
* 
一 N 


*vbuf, int vsiz, int dmode ) ， 


/* 对 数据 库 中 的 键 开始 循环 */ 
int dpiterinit(DBM *dbm); 


/* 返回 数据 库 中 下 一 个 键 */ 
char *dpiternext(DEPOT *dbm, int *]len) ，; 


/* 关闭 数据 库 */ 
datum dpclose(DEPOT *dbm); 


图 14-28 DBM 函数 


把 这 些 画 数 调 用 组 合 起 来 ， 束 可 以 实现 使 用 QDBM 的 编程 。 我 们 的 日 
的 是 用 Ruby 来 方便 地 调用 这 一 函数 群 。 


请 注意 ，QDBM 库 是 以 DEPOT 结构 为 中 心 ， 类 似 于 面向 对 象 的 调 
用 。 这 意味 着 我 们 只 要 把 DEPOT 结构 看 成 是 Ruby 对 象 束 可 以 了 。 世 
忠 是 因为 这 一 点 ，MiniDB 类 的 规格 才 变 成 前 面 表 中 说 明 的 样子 。 


让 我 们 接着 来 编写 MiniDB 类 的 中 心 内 容 吧 。 首 先 要 实现 一 个 封装 
DBM 结构 的 MiniDB 对 象 。 


像 这 次 用 对 象 来 封装 C 结构 的 情况 ， 需 要 告诉 Ruby 为 对 象 分 配 内 存 
的 方法 。 为 对 象 分 配 内 存 的 函数 是 Init_minidb 函数 调用 的 
rb_define_alloc_func() 。 参数 是 要 指定 生成 对 象 的 类 和 生成 函 


数 。 


对 象 生成 画 数 minidb_alloc 的 定义 如 图 14-29 所 示 。 


static void 
minidb_free(DEPOT *db) 


if (db) dpclose(db); 
static VALUE 
minidb_alloc(VALUE klass) 
{ 


return Data Wrap_Struct(klass, 0, minidb_free, NULL); 


图 14-29 对象 生 成 函数 minidb_alloc 


minidb_alloc 使 用 Data_Make_Struct 宏 定义 来 生成 封装 结构 
的 对 象 。Data_Make_Struct 宏 定义 需要 4 个 参数 ， 它 们 分 别 是 : 
。 对象 的 类 ; 
。 GC 标志 函数 指针 ; 
。 用 来 释放 结构 的 函数 指针 ; 
。 结构 指针 。 


关于 GC 标记 函数 ， 当 封装 的 结构 直接 或 者 间接 引用 Ruby 对 象 的 时 
候 ， 会 影响 到 对 象 管理 ，GC 标记 函数 是 用 来 告诉 Ruby 运行 库 这 些 参 
数 信息 的 。 这 次 因为 没有 这 样 的 引用 ， 所 以 参数 指定 为 0。 关 于 标记 
函数 的 详细 说 明 ， 请 引用 Ruby 源 代码 附带 的 README.TXT 文件 ， 
或 者 《Ruby 编程 》 (Ohm 出 版 社 ) 等 书籍 。 


作为 用 来 释放 所 封装 结构 的 函数 ， 这 里 指定 的 是 minidb_free 画 
数 。 它 调用 dpclose 函数 。 但 是 ， 这 里 封装 的 结构 有 可 能 是 NULL 

， 所 以 追加 了 检查 代码 。 

本 来 应 该 把 结构 指针 传递 给 Data_Wrap_Struct 宏 定义 ， 但 因为 这 


人 
为 NULL 。 


14.4.5 ”初始 化 对 象 


分 配 了 对 象 之 后 ， 就 调用 它 的 Initialize 方法 ， 这 与 Ruby 程序 的 
类 是 一 样 的 。initialize 方法 是 由 minidb_init 函数 实现 的 ( 参 
见 图 14-30) 。 


static VALUE 
minidb_init(VALUE self, VALUE path) 


DEPOT *db; 


SafeStringVvalue(path ) ; 
db = dpopen(RSTRING_PTR(path), 
DP_OREADER|DP_OWRITER|DP_OCREAT, 0); 
if (!db) { 
rb_raise(rb_eRuntimeError, "dpopen - %s", 
dperrmsg(dpecode)); 


DATA_PTR(sSelf) = db; 


return self,; 


图 14-30 “对象 初始 化 函数 minidb_init 


不 管 是 哪个 钞 数 ， 基 本 构造 都 古 一 样 的 : 


必要 的 i 
) 处 理 函 数 ; 
普 的 时 候 抛 出 异常 ; 


je 


minidb_init 函数 也 不 例外 。 首 和 完 ， 使 用 SafeStringValue 安定 


义 来 检查 参数 确实 是 字符 串 。 类 型 变换 和 检查 都 由 这 个 安定 义 来 负责 
完成 了 。SafeStringValue 是 用 来 检查 参数 是 “安全 ”字符 串 的 安定 
义 。 所 谓 安 全 就 是 ， 参 数 不 是 由 外 部 输入 的 不 能 信赖 的 字符 串 。 如 果 
用 不 能 信赖 的 字符 串 作 为 数据 库 路 径 名 的 话 ， 会 带 来 意 想 不 到 的 安全 
性 问题 ， 所 以 这 里 特意 进行 了 检查 。 在 不 需要 检查 安全 性 的 时 候 ， 可 
以 使 用 StringValue 宏 定义 。 


为 了 从 字符 串 对 象 中 取出 C 的 指针 ， 这 里 使 用 的 是 RSTRING_PTR 安 
定义 。 另 外 ,用 RSTRING_LEN 宏 定 义 可 以 取得 字符 串 的 长 度 。 


下 一 步调 用 dpopen 函数 ， 打 开 数 据 库 ， 得 到 要 封装 的 结构 。 
如 果 在 打开 数据 库 的 时 候 发 生 什么 错误 的 话 ， 束 应 该 抛 出 异 弟 。 要 掀 


出 异常 可 以 用 rb_raise 函数 来 实现 。 第 一 个 参数 是 异常 类 ， 第 二 个 
参数 以 后 与 printf 是 一 样 的 。 


最 后 用 DATA_PTR 安定 义 来 更 新 一 直 是 NULL 的 结构 指针 ， 完 成 初始 


化 处 理 。 一 个 个 看 下 来 ， 其 实 也 没有 什么 特别 难 的 东西 。 
14.4.6 ”实现 方法 
接着 让 我 们 来 看 一 下 其 他 方法 的 实现 吧 (参见 图 14-31) 。 


static VALUE 
minidb_get(VALUE self, VALUE key) 


DEPOT *db; 
char *p; 
int len; 
VALUE str; 


Data Get_Struct(self, DEPOT, db); 
StringValue (key); 
p = dpget(db, RSTRING_PTR(key), RSTRING LEN(key), 0, -1, 


&len ); 
str = rb_tainted_ str_new(p, len); 
free(p); 


return str; 


} 


static VALUE 
minidb_set(VALUE self, VALUE key, VALUE val) 


{ 
DEPOT *db; 
Data Get_Struct(self, DEPOT, db); 
StringValue(key); 
StringValue(val); 
if (!dpput(db, RSTRING_ PTR(key), RSTRING_LEN(key), 
RSTRING_PTR(val), RSTRING LEN(val), DP_DOVER)) { 
rb_raise(rb_eRuntimeError, "dpput failed"); 
return val; 
} 


static VALUE 
minidb_close(VALUE self) 


DEPOT *db; 


Data Get_Struct(self, DEPOT, db); 


dpclose(db); 
DATA_PTR(self) = 0; 
return QnNil; 


} 


static VALUE 
minidb_each(VALUE self) 
{ 


DEPOT * db; 
char *p; 
int len; 
VALUE key; 


Data Get_Struct(self, DEPOT, db); 
dpiterinit(db); 
for(;;) { 
p = dpiternext(db, &len); 
If (!p) break; 
key = rb_tainted str_new(p, len); 
rb_yield values(2, key, minidb_get(self, key)); 


return self,; 


图 14-31 minidb 方法 的 实现 


所 有 的 方法 都 是 首先 使 用 Data_Get_Struct 宏 定 义 ， 然 后 取出 封装 
的 结构 。 


接着 用 StringValue 来 进行 类 型 检查 ，rb_raise 来 抛 出 异常 ， 都 
跟 上 面 讲述 的 模式 是 一 样 的 。 


需要 特别 说 明 的 是 rb_tainted_str_new 和 rb_yield_values 
这 两 个 函数 。 


从 数据 库 中 读 取 出 来 的 字符 串 要 转换 成 Ruby 的 字符 串 。 但 是 ， 从 数据 
库 读 取 的 字符 串 是 从 外 部 输入 的 ， 并 不 一 定 是 可 以 信赖 的 。 使 用 
rb_tainted_str_new 函数 ， 明 确 指出 它 不 是 安全 字符 串 这 一 事 
实 。Ruby 能 够 检查 出 来 使 用 不 安全 字符 串 的 危险 操作 ， 这 意味 着 不 容 
易 发 生 跨 站 攻击 的 安全 性 问题 。 


rb_yield_values 是 Ruby 中 相当 于 yield 的 函数 。C 很 难 像 Ruby 
那样 根据 参数 的 个 数 而 改变 动作 ， 所 以 用 rb_yield_values 来 明确 


地 指明 参数 个 数 。 只 指定 一 个 值 的 时 候 也 可 以 用 rb_yield 函数 。 
14.4.7 关于 垃圾 收集 的 注意 事项 


Ruby 有 垃圾 收集 的 机 制 ， 能 够 目 动 回收 不 再 使 用 的 对 象 。 这 种 机 制 非 
常 好 ， 但 也 有 和 需要 稍 加 留意 的 地 方 。 


Ruby 的 垃圾 收集 属于 所 谓 的 保守 垃圾 收集 类 ，Ruby 的 对 象 如 果 被 C 
的 变量 访问 着 的 话 ， 就 不 会 被 回收 ， 这 一 点 是 相当 出 色 的 。 但 是 ， 如 
14-32 所 示 的 情况 就 会 发 生 问 题 。 

static VALUE 

foo(VALUE self) 


VALUE Str = some_func(); 
char *p = RSTRING_PTR(Sstr); 


/* 使 用 p 的 处 理 * 

/* p 还 在 使 用 之 中 ， 已 不 再 使 用 * 
/* 垃圾 收集 回收 ，p 变 得 无 效 */ 
/* 严重 的 程序 错误 * 


/ 


图 14-32 ”保守 垃圾 收集 的 麻烦 问题 


这 里 ， 引 用 着 Ruby 对 象 的 变量 str 经 编译 器 优化 处 理 之 后 ， 已 不 存 
在 于 程序 之 中 ， 即 使 p 引用 着 str 所 指向 的 地 址 ，Ruby 的 垃圾 收集 

也 不 能 认识 到 str 指向 的 对 象 还 在 使 用 之 中 这 一 事实 ， 束 会 发 生 这 样 
的 问题 。 


避免 这 一 问题 的 有 效 方法 是 ， 在 成 为 问题 原因 的 VALUE 变量 前 加 上 
Volatile 修饰 。 


14.4.8 ”其 他 的 Ruby API 


为 了 在 Ruby 与 C 之 间 进 行 数据 交换 ，Ruby 还 提供 了 其 他 数量 众多 的 
API， 这 里 束 不 再 逐一 详细 介绍 了 人 。 比 如 ，Ruby 提供 有 如 下 功能 的 
API。 


访问 实例 变量 。 
。 定义 或 引用 常数 。 
调用 方法 。 
。 检查 和 变换 各 种 数据 类 型 。 
。 解析 方法 的 参数 。 
详细 请 引用 README.TXT 等 文件 。 
14.4.9 “扩展 库 的 编译 


即使 号 好 了 源 代码 ， 如 果 不 加 编译 的 话 ， 也 是 没有 意义 的 。 以 下 是 扩 
展 库 的 编译 步骤 。 


首先 按 照 以 上 的 顺序 编写 源 代 码 。 大 C 程序 的 文件 名 后 缀 一 律 约定 
为 .c 的 话 ， 后 续 步 又 会 目 动 识 别 出 来 C 程序 文件 。 


为 生成 编译 所 需要 的 文件 ， 需 要 准备 必要 的 Ruby 文件 。 这 个 文件 通 
党 命名 为 extconf.rb。minidb 的 extconf .rb 的 内 容 如 图 14-33 所 
不 ?5 


require 'mkmf' 


If have_library("qdbm") and 
have_header("dqdbm/vdepot .h”) 


create_makefile("minidb" ) 
end 


图 14-33 extconf.rb 
extconf ,rb 是 由 以 下 几 个 部 分 构成 的 ; 
。 调用 reduire 'mkmf'; 


。 用 have_library 和 hava_header 检查 必要 的 库 和 头 文 件 是 
否 存在 ; 


。 用 create _makefile 来 生成 必要 的 
Makefile.create_makefile 的 参数 是 库 的 名 字 。 


照 图 14-34 执行 extconf.rb， 束 可 以 生成 Makefile 。 


% ruby extconf.rb 
checking for main() in -lqdbm... yes 


checking for qdbm/depot.h... yes 
creating Makefile 


图 14-34 ”生成 Makefile 


用 make 命令 来 编译 ， 尔 后 可 以 用 make install 命令 来 安装 编译 
后 的 库 。 


14.4.10 ”扩展 库 以 外 的 工具 
Wu 展 工具 不 仅仅 是 扩展 库 。 这 里 徐 单 介绍 一 下 其 他 的 Ruby 扩 
下， {0 


3 


RubyInline 


RubyInline 可 以 在 Ruby 的 源 代码 中 直接 租 入 C 的 程序 。 不 用 每 次 准 
备 extconf ,rb 文件 ， 也 不 需要 明确 的 编译 步骤 ， 非 常 便利 ， 但 它 也 
有 不 少 约束 ， 比 如 在 执行 环境 中 需要 有 编译 器 ， 与 外 部 库 的 链接 也 有 
些 麻烦 等 。 


Ricsin 


YARYV 的 开发 者 管 田 先生 最 近 在 开发 Ricsin。RubyInline 只 是 直接 利用 
扩展 库 的 API， 省 略 了 编译 的 步骤 而 已 ， 而 Ricsin 把 VM 作为 自己 的 
一 部 分 ， 只 有 方法 处 理 的 一 部 分 采用 C 来 实现 。 这 样 可 以 避免 方法 调 
用 的 开销 ， 能 够 期 望 提高 处 理 速度 。Ricsin 可 以 从 Ruby 程序 库 的 


ricsin 分 文 得 到 。 


dl 


Ruby 程序 执行 环境 ， 特 别 是 Windows 环境 ， 并 不 总 是 备 有 编译 器 。 
9 库 使 得 Ruby 水 平 的 外 部 库 直 接 调 用 成 为 可 能 ，d1 是 Ruby 本 身 的 
示 准 库 之 一 。 


有 了 dl ， 仅 用 Ruby 也 能 实现 与 minidb 同样 动作 的 库 。 把 图 14-35 
的 程序 保存 成 minidb .rp 文件， 没有 扩展 库 也 可 以 使 用 minidb 。 


dl 的 优点 是 在 没有 安 半 编译 做 和 头 文件 的 环境 下 也 可 以 运行 。 


require "dl/import" 
require "dl/struct" 


class MiniDB 
module Impl 
extend DL::Importable 


dlload "libqdbm.so" 


extern "DEPOT *dpopen(const char*, int, int)" 
extern "int dpclose(DEPOT*)" 
extern "int dpput(DEPOT*, const char*, int, const char*, int, 


extern "char *dpget(DEPOT*, const char*, int, int, int, int*)" 
extern "int dpiterinit(DEPOT* )" 
extern "char *dpiternext(DEPOT*, int*)" 

end 


def initialize(path) 
@db = Impl.dpopen(path, 7, 0) 
# 7 = DP_OREADER|DP_OWRITER|DP_OCREAT 
end 
def [](key) 
Impl.dpget(@db, key, key.size, 0, -1, nil) 
end 
def []=(key, val) 
unless Impl.dpput(@db, key, key.size, val, val.size, 0) 
raise RuntimeError, "dpput failed" 
end 
end 


def close 
Impl.dpclose(@db) 
return nil 
end 
def each 
Impl.dpiterinit(@db) 
loop do 
key = Impl.dpiternext(@db, nil) 


break unless key 
yield key, self [key!] 
end 


图 14-35 使 用 dl 的 minidb 


ffi 


关于 Ruby 的 扩展 ，ffi 库 受 到 关注 。ffi 是 foreign function interface 的 
缩写 ， 它 也 提供 在 Ruby 水 平 上 的 与 外 部 函数 的 直接 接口 ， 这 个 目的 与 
dl 几乎 是 一 样 的 。ffi 可 以 从 RubyGems 得 到 。 


ffi 的 特征 是 使 用 libffi 更 有 效率 地 调用 外 部 函数 ，Ruby、Rubinius 
和 JRubby 都 可 以 使 用 同样 的 API。 


使 用 ffi 库 实 现 minidb 的 程序 如 图 14-36 所 示 。 


require 'ffi' 


class MiniDB 
module Impl 
extend FFI::Library 
ffi_lib("qdbm") 
attach_function "dpopen", [:pointer, :int, :int], :pointer 
attach_function "dpget", [:pointer, :pointer, :int, :int, 
:int, :pointer], :pointer 
attach_function "dpput", [:pointer, :pointer, :int, :pointer, 
:int, :int], :int 
attach_function "dpclose", [:pointer], :int 
attach_function "dpiterinit", [:pointer], :int 
attach_function "dpiternext", [:pointer, :pointer], :pointer 
end 


def initialize(path) 
@db = Impl.dpopen(path, 7, 0) 
end 
def [](key) 
len = MemoryPointer.new(:int) 
d = Impl.dpget(@db, key, key.size, 0, -1, len) 
Ss = d.read string(len.read_int) 
d.free 
S 


end 
def [] = (key, val) 
unless Impl.dpput(@db, key, key.size, val, val.size, 0) 
raise RuntimeError, "dpput failed" 
end 
end 


def close 
Impl.dpclose(@db) 
return nil 
end 
def each 
Impl.dpiterinit(@db) 
loop do 
len = MemoryPointer.new( :int) 
p = Impl.dpiternext(@db, len) 
break If p.null? 
key = p.read_ string(len.read_int) 
yield key, self [key!] 
end 
end 


图 14-36 ffi 实现 的 minidb 


* * * 


本 廊 学 习 了 Ruby 的 扩展 功能 。 使 用 Ruby 的 扩展 API 可 以 比较 简单 地 
实现 C 的 高 速 化 库 或 外 部 库 的 接口 。 另 外 ， 使 用 dl 或 ffi 这 样 的 技 
术 ， 不 用 C 就 可 以 实现 对 外 部 库 的 访问 。 


14.5 ”为 什么 要 开源 


我 与 开源 /自由 软件 也 打 了 很 长 时 间 的 交道 了 。 最 初 接 触 到 自由 软件 还 
是 大 学 时 代 1989 年 的 事 了 。 编 辑 器 Emacs 和 编译 器 GCC 是 我 最 初 接 
触 到 的 自由 软件 。 


我 自己 最 早 发 布 的 自由 软件 是 Emacs Lisp 一 书 中 介绍 的 邮件 阅读 器 
cmail， 已 经 记得 不 是 很 清楚 了 ， 我 想 那 大 致 是 1990 年 前 后 的 事情 。 
在 那 之 后 ， 又 发 布 了 Ruby (1995 年 ) ， 跳 槽 到 现在 的 公司 后 ， 专 门 
se Rl (1997 年 ) ， 在 我 的 生活 中 ， 开 源 所 占 的 比例 越 


沉浸 在 “开源 生活 ”中 的 我 也 有 困惑 的 时 候 。 对 于 本 行业 以 外 的 人 士 ， 
以 及 即使 是 开 行业 内 但 对 开源 保持 一 定 距离 的 人 士 ， 我 都 一 直 很 难 让 
他 们 明白 “开源 古 什 么 ”这 个 问题 。 因 为 我 也 有 目 己 的 立场 ， 不 愿意 使 
用 简单 而 又 容易 产生 误解 的 “免费 软件 "这 种 说 法 ， 即 使 费劲 说 了 一 大 
堆 ， 结 采 听 的 人 还 是 一 付 不 知 所 云 的 面孔 。 


这 种 “难以 理解 度 ” 好 像 与 对 “ 目 由 软件 ”这 个 单词 本 身 的 误解 ， 以 及 它 
在 不 同 侧面 所 拥有 的 多 种 概念 不 无 关系 。 


14.5.1 ”自由 软件 的 思想 

首先 ， 让 我 们 从 开源 与 目 由 软件 的 区 别 开 始 吧 。 按 照 出 现 顺序 ， 首 先 
是 1980 年 前 后 出 现 了 自由 软件 一 词 ， 后 来 (1998 年 ) 才 诞 生 了 开源 
软件 一 词 。 

日 由 软件 意味 者 用 户 可 以 目 由 处 理 的 软件 ， 它 的 育 景 十 软件 症 目 由 的 


自由 软件 这 一 思想 起 源 于 自由 软件 基金 会 Free Software Foundation ， 
FSF) ， 关 于 软件 的 自由 ， 它 是 这 样 考虑 的 : 


。 执行 的 目 由 

。 阅读 源 代码 的 目 由 

。 改变 源 代码 的 目 由 

。 再 发 布 源 代 码 的 目 由 
为 保证 执行 的 目 由 ， 必 须 能 够 将 软件 免费 拿 到 手 。 出 于 学 习 和 人 研 完 的 
目的 ， 也 必须 能 够 目 由 地 得 到 源 代码 。 还 有 ， 为 了 修改 程序 错误 ， 或 
者 为 适合 目 己 的 目的 而 进行 改造 ， 那 束 不 单单 是 阅读 源 代码 ， 还 要 人 允 
许 改 变 源 代 码 。 把 目 己 认为 好 的 软件 推荐 给 别人 ， 或 者 把 目 己 进行 的 
修改 或 改善 与 他 人 共 至 的 话 ， 号 需要 有 再 发 布 的 目 由 。 


这 些 目 由 并 不 是 目 然 发 生 的 ， 而 古 需 要 我 们 大 家 来 保护 和 培育 ， 这 吏 
征 FSF 的 主张 。 这 也 有 其 历史 根源 。 


14.5.2 ”自由 软件 的 历史 


曾几何时 ， 在 计算 机 的 黎明 期 ， 软 件 完全 是 硬件 的 附属 物 。 闫 了 计算 
机 ， 附 市 操作 系统 等 源 代 码 ， 根 本 吏 不 是 什么 黎 罕 的 事 。 那 时 ， 或 者 
在 更 早 一 些 的 时 候 ， 甚 至 有 这 样 的 情况 ， 从 生产 厂家 闫 来 的 计算 机 连 
操作 系统 也 没有 ， 需 要 用 户 目 己 来 开发 各 种 软件 。 严 了 同样 计算 机 的 
用 户 互相 交换 目 己 开发 的 软件 ， 互 助 合作 。 虽 然 不 够 精致 ， 但 与 如 今 
开源 软件 的 情况 很 有 些 相似 之 处 。 


但 是 ， 随 独 时 代 的 发 展 ， 软 件 成 了 商品 ， 源 代码 也 播映 一 变 ， 成 为 不 
能 简单 对 外 开放 的 企业 机 密 。 对 于 吏 这 么 一 路 走 过 来 的 人 而 言 ， 台 相 
当 于 逐渐 剥 村 了 他 们 的 自由 。1970 年 以 后 ， 软 件 的 源 代 码 就 不 再 是 理 
所 当然 可 以 拿 到 手 的 东西 了 。 


这 一 背景 与 当时 美国 微软 公司 的 总 裁 比 尔 。 盖 次 先生 写 的 《 致 业余 爱 
好 者 的 一 封 公开 信 》 有 关 ， 这 一 事实 并 不 广为人知 。 在 发 表 于 1976 年 
2 月 的 这 封 信 中 ， 兰 次 先生 所 出， 只 有 业余 爱好 者 能 开发 出 高 质量 的 
软件 吗 ? 专业 人 员 得 免费 工作 吗 ? 他 要 求 把 软件 作为 商品 来 处 理 。 


即使 这 样 ， 大 学 里 的 人 们 还 在 继续 以 一 种 田园 牧歌 的 方式 进行 软件 开 
发 ， 但 这 一 目 由 逐渐 被 商业 软件 所 侵蚀 。 


14.5.3 Emacs 事件 的 发 生 


随 之 发 生 了 具有 象征 意义 的 事件 。 成 为 舞台 的 就 是 现在 还 在 广 为 使 用 
的 高 性 能 编辑 器 Emacs， 主 要 登场 人 物 是 FSF 创始 人 、 厅 省 理工 学 院 
的 天 才 程 序 员 理 碍 德 . 斯 托 曼 (Richard Stallman) 先生 ， 和 后 来 因 设 
计 Java 而 成 名 的 詹 姆 士 : 戈 斯 林 (James Gosling) 先生 。 


最 初 的 Emacs 是 斯 托 受 用 安 编辑 器 Teco 编写 的 。 作 为 易于 使 用 的 编 
辑 器 而 受到 好 评 的 Emacs 有 众多 的 派生 版 本 。1981 年 ， 后 来 成 为 Java 
设计 者 的 戈 斯 林 开 发 了 UNIX 版 的 Emacs。 


戈 斯 林 开 发 的 Emacs (通称 GoslingEmacs 或 Gosmacs) 拥有 使 用 名 为 
MockLisp 的 类 Lisp 语言 开发 的 扩展 功能 。 斯 托 曼 也 想 要 UNIX 版 的 
Emacs， 硕 望 能 在 戈 斯 林 版 的 Emacs 基础 上 进行 开发 。 他 想 要 的 


Emacs 不 是 MockLisp 这 种 类 Lisp 语言 ， 而 是 融合 了 真正 Lisp 的 
Emacs。 


但 是 ， 龙 斯 林 把 Gosmacs 的 专利 卖 给 了 Unipress 公司 ， 斯 托 受 就 不 能 
够 在 Gosmacs 的 基础 上 开发 新 的 Emacs 了。 结果 ， 斯 托 曼 从 零 开 始 开 
发 了 自己 的 UNIX 版 的 Emacs。 


也 区 是 在 这 个 时 候 ， 他 开始 意识 到 ， 软 件 的 目 由 并 不 是 哪儿 都 有 ， 而 
必须 自己 来 保护 。 这 时 可 以 说 ， 和 意识 到 “只 是 公开 源 代码 并 不 够 "这 一 
事实 的 斯 托 受 比 大 众 领 抑 了 15 年 。 


在 那 之 后 ， 斯 托 受 成 立 了 保护 软件 目 由 的 团体 FSF， 定 义 了 保证 软件 
自由 的 许可 证 GPL (GNU General Public License) 。 另 外 ， 他 还 劝说 
J GPL 软件 许可 证 ， 参 加 保护 软件 目 由 运动 。 这 些 是 
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从 那 时 以 来 ， 斯 托 曼 与 FSF， 在 GPL 下 公开 了 大 量 的 软件 。 优 秀 的 编 
译 器 GCC， 以 及 涵盖 了 UNIX 大 多 数 命 令 的 GNU 工具 等 ，FSF 的 工 
有 具 已 成 为 开源 中 不 可 或 缺 的 存在 了 。 他 们 的 最 终 目 标 是 ， 创 造 一 个 从 
上 到 下 完全 自由 的 操作 系统 环境 GNU (GNU's Not Unix) ， 而 
GNU/Linuxil 的 出 现 几 乎 达成 了 这 一 目标 。 


1 按照 斯 托 曼 的 主张 ，Linux 是 内 核 的 名 称 ， 各 种 GNU 工具 结合 而 成 的 操作 系统 应 该 称 为 
GNU/Linux ° 


NS 


但 是 ， 自 由 软件 并 没有 得 到 企业 的 理解 。 一 种 说 法 是 自由 这 个 词 让 人 
联想 到 免费 ， 还 有 的 说 斯 托 曼 仇恨 商业 软件 的 态度 也 让 经 癌 商 业 软 件 
的 IT 企业 对 他 敬而远之 ， 捅 不 清楚 a 到底 是 怎么 回 事 。 


14.5.4 ”开源 的 诞生 


在 这 样 的 环境 中 ， 寻 负 把 目 由 软件 推广 到 商业 领域 重任 而 诞生 的 单词 
是 开源 。 

1998 年 ， 在 浏览 絮 战 搜 中 败 给 微软 公司 的 美国 网 景 公司 决 定 把 自己 开 
发 的 Web 浏览 器 的 源 代 码 作为 自由 软件 公开 。 其 背景 是 埃 里 元 : 雷 荣 
德 (Eric Raymond) 先生 发 表 的 论文 《大 教堂 与 集 市 》。 


这 篇 论文 发 表 于 1997 年 的 Perl Conference。 这 篇 论文 以 Linux 为 题 

材 ， 考 察 了 通过 公开 源 代 码 ， 采 用 不 同 于 像 建筑 大 教学 那样 的 基于 精 
密 设 计 和 计划 而 执行 的 传统 软件 开发 方式 ， 而 是 像 集 市 一 样 宽 松 由 志 
愿 者 目 发 合作 的 方式 ， 从 而 促进 优秀 软件 的 诞生 。 


网 景 公 司 受到 这 篇 论文 的 强烈 影响 。 为 了 打开 局 面 ， 他 们 作出 了 一 个 
划时代 的 经 侣 策略， 决定 公 开 目 己 公 司 的 主要 产品 Netscape 
Communicator 浏览 絮 源 代码 。 之 后 ， 雷 蒙 德 等 自由 软件 界 的 主要 人 物 
作为 顾问 ， 与 网 景 公司 的 管理 层 举行 了 战略 性 会 谈 ， 当 场 决 定 开创 公 
TY 为 了 适当 地 表达 这 一 概念 ; “开源 ”一 
词 ; 。 


当时 开源 意味 着 公开 源 代码 ， 只 苹 现在 开源 的 各 种 特征 中 极为 有 限 的 
一 小 部 分 。 因 为 开源 这 个 词 中 不 包含 目 由 这 个 最 为 重要 的 概念 ， 受 到 
Os 目 由 软件 界 人 士 的 反对 。 开 源 差 点 束 因 为 他 们 的 反对 而 流产 


但 是 ， 采 用 开源 这 一 新 词 有 如 下 的 好 处 : 
。 新 词 市 来 新 气象 ; 
不 再 过 分 强调 免费 这 一 不 符合 商业 要 求 的 侧面 ; 
给 人 一 种 好 像 新 商业 趋势 的 印象 
开源 一 词 因 此 得 到 商业 人 士 的 支持 。 针 对 目 由 软件 派 的 “轻视 目 由 ”的 
反对 意见 ， 现 实 派 并 不 怎么 重视 这 一 点 ， 认 为 开源 的 定义 (OSD) 保 
证 了 自由 。 
在 开源 一 词 诞生 之 后 ， 以 雷 蒙 德 为 中 心 的 组 织 Open Source Initiative 
(OSI) 马上 给 开源 下 了 一 个 明确 的 定义 。 根 据 这 一 定义 ， 开 源 软 件 
就是 用 满足 开源 定义 的 许可 证 所 发 布 的 软件 。 开 源 定义 的 概要 如 图 
14-37 所 示 。 
请 注意 ， 开 源 定 义 既 非 作者 的 意向 ， 也 不 是 软件 本 号 的 性 质 ， 而 是 用 
许可 证 来 定义 的 。 也 残 是 说 ， 开 源 并 不 天 心软 件 本 叶 ， 而 只 是 关心 如 
何 使 用 和 发 布 软件 。 


传统 软件 的 许可 证 总 是 在 限制 用 户 的 权利 ， 与 此 相反 ，FSF 定义 的 
GPL 则 保证 自由 软件 的 软件 自由 ， 保 护 用 户 的 权利 ， 在 这 个 意义 上 ， 
它 是 划时代 的 。 开 源 的 定义 比 使 用 许可 证 来 判断 一 个 软件 是 否 是 自由 
软件 更 进 了 一 步 。 开 源 的 定义 是 以 Debian GNU/Linux 发 布 中 为 判定 什 
么 样 的 软件 是 自由 软件 而 制订 的 DFSG (Debian Free Software 
Guideline) 为 基础 的 。 


在 衍生 作品 ， 衍 生 作品 可 以 使 用 同样 的 许可 证 
布 补丁 文件 的 时 候 ， 可 以 要 求 保持 完整 性 


许可 证 


”不 依赖 于 特定 的 产品 
”不 影响 同一 媒介 发 布 的 其 他 软件 
6， 技术 上 保持 中 立 


图 14-37 开源 的 定义 


DFSG 是 为 了 把 大 量 的 软件 整理 成 一 个 发 布 时 ， 如 何 判定 目 由 软件 而 
制订 的 。 如 有 果 是 满足 DFSG 许可 证 的 软件 ， 那 么 在 发 布 和 改变 之 前 就 
不 再 需要 每 次 征求 开发 者 的 承诺 ， 可 以 安心 地 制作 发 布 版 本 。 


可 以 说 继承 DFSG 而 诞生 的 开源 也 古 一 样 的 。 满 足 开 源 软 件 ， 也 有 即 
OSD 许 可 证 而 发 布 的 软件 ， 在 开发 方面 基本 上 没有 什么 限制 ， 可 以 安 
心地 开发 和 发 布 。 看 了 OSD， 也 有 不 少 人 觉得 条 件 多 限制 多 ， 既 然 是 
开源 ， 仪 仅 公 开源 代码 还 不 够 吗 ? 但 在 发 布 软件 集合 时 ， 能 做 的 事情 
是 对 个 别 软件 所 能 做 事情 的 最 大 公约 数 ， 如 果 不 加 一 定 的 限制 ， 能 做 
的 事情 束 会 越 来 越 少 。 作 为 开源 特征 的 集 市 开发 也 是 一 样 ， 为 保证 开 
发 工作 的 顺利 进行 ， 有 必要 使 用 适当 的 许可 证 来 让 目 己 安心 。 


14.5.5” OSS 许可 证 


我 们 已 经 明日 ， 开 产 定 义 的 实质 在 于 开源 许可 证 的 条 件 ， 对 于 目 由 软 
件 /开源 软件 来 说 ， 许 可 证 是 至 关 重 要 的 。 许 可 证 明确 规定 了 用 户 可 以 
经 样 使 用 和 发 布 该 软件 ， 对 于 目 由 软件 来 说 ， 它 征 思 想 的 表现 ， 或 者 
征 保 护 目 由 的 武 右 。 


满足 开源 定义 的 许可 证 有 很 多 。 在 OSI 的 网 页 上 

(http://www.opensource.jp ) ， 经 OSI 认可 的 许可 证 就 多 达 72 种 。 还 
有 没 经 OSI 认可 ， 但 也 满足 开源 定义 的 许可 证 ， 所 以 其 总 数 还 会 更 
oo 
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Ruby 的 许可 证 也 没有 经 OSI 认可 。 如 今 进 军 开源 领域 的 企业 逐渐 增 
加 ， 拥 有 法 律 部 的 大 企业 ， 好 像 大 都 盲从 于 律师 而 制定 自己 独特 的 许 
可 证 。 实 际 上 ，OSI 认可 的 许可 证 中 ， 相 当 大 一 部 分 都 冠 有 美国 苹果 
公司 、 美 国 IBM 公司 等 一 些 公司 的 名 字 。 


OSS 许可 证 中 最 有 影响 的 有 以 下 几 种 : 
GPL 


GPL (GNU General Public License) 应 该 可 以 说 是 自由 软件 许可 证 的 
鼻祖 ， 它 具有 如 下 特征 : 

。 没有 保证 ; 

。 表示 版 权 ; 

。 保持 同样 的 许可 证 。 
GPL 特征 中 最 重要 的 是 保持 同样 的 许可 证 ， 也 就 是 说 ， 在 对 GPL 许可 
证 的 软件 进行 修改 或 复制 的 情况 下 ， 必 须 保持 其 原来 的 GPL 许可 证 。 


这 意味 着 再 利用 GPL 软件 的 源 代码 而 开发 的 软件 的 许可 证 也 必须 是 
GPL。 批 判 GPL 的 人 把 这 称 为 感染 性 。 赞 同 GPL 的 人 们 称 之 为 版 权 
保留 ， 因 为 这 一 性 质 意味 着 版 权 (copyright) 的 保留 。 


GPL 的 最 新 版 本 是 3.0。 这 一 版 本 发 表 于 2007 年 ， 其 中 国际 法 及 有 关 

专利 的 条 款 比 以 前 的 版 本 更 为 明确 。GPL 软件 的 GPL 3.0 移植 好 像 也 

。 也 有 像 Linux 这 样 的 软件 ， 明 确 表示 将 继续 使 用 原 
9 GPL 2.0。 


LGPL 


LGPL (GNU Lesser General Public License) 也 是 与 GPL 拥有 同样 性 质 
的 许可 证 ， 但 对 于 适用 LGPL 许可 证 的 软件 库 ， 如 果 只 是 链接 在 一 起 


的 话 ， 束 不 能 做 到 版 权 保 留 ， 所 以 LGPL 把 保持 同样 许可 证 的 适用 范 
围 只 限定 为 对 该 软件 的 修改 。 这 是 因为 如 果 对 链接 库 也 全 部 适用 GPL 
许可 证 的 话 ， 束 有 可 能 限制 库 的 使 用 范围 。 


LGPL 本 来 只 是 针对 库 而 制定 的 ， 原 名 为 GNU Library General Public 
License，FSF 为 了 表明 这 仪 仅 是 例外 情况 ， 不 应 该 被 冒 目 使 用 ， 因 而 
从 保证 自由 的 观点 考 虚 ， 把 它 改 名 为 Lesser (次 ) 。 

BSD 许 可 证 


加 利 福 尼 亚 大 学 伯克利 分 校 在 公开 BSD UNIX 时 ， 制 定 的 许可 证 是 
BSD 许可 证 。 当 初 BSD 许可 证 由 以 下 三 项 组 成 : 

。 没有 保证 ; 

。 保持 版 权 表 示 ; 

。 衍生 产品 的 广告 中 介绍 原作 者 〈 宣 传 条 款 ) 。 


但 是 BSD 有 以 下 缺点 ， 由 于 最 后 称 为 宣传 条 款 的 项 目 ， 在 包含 有 大 量 
软件 的 软件 包 时 ， 有 可 能 导致 介绍 原作 者 的 部 分 会 比 广告 内 容 还 要 长 
的 情况 ， 它 比 GPL 的 限制 还 要 严格 ，GPL 许可 证 的 软件 与 BSD 许可 
证 的 软件 的 源 代码 不 能 混合 使 用 (GPL 非 互 换 性 ) 。 


在 那 之 后 ， 经 过 加 利 福 尼 亚 大 学 的 同意 ， 删 除了 宣传 条 款 ， 现 在 只 
前 两 项 的 修正 BSD 许可 证 得 到 广泛 使 用 。 


MIT 在 公开 X Window System 时 采用 的 许可 证 通称 为 MIT 许可 证 (也 
称 为 X11 许可 证 ) ， 其 内 容 与 修正 BSD 许可 证 几乎 是 一 样 的 。 


BSD 许可 证 与 MIT 许可 证 没有 感染 性 ， 在 和 希望 目 己 的 软件 得 到 更 广泛 
使 用 的 层次 中 很 受 欢迎 。 男 一 方面 ， 与 GPL 相 比 ，BSD 因 保护 ( 强 
制 ) 自由 的 力量 较 弱 而 受到 批判 。 


APL 和 CPL 
其 他 许可 证 中 比较 有 名 的 有 Apache 基金 会 采用 的 Apache 许可 证 


(APL) ，IBM 提倡 的 CPL (Common Public License) 等 。 前 者 不 是 
版 权 保 留 ， 后 者 是 版 权 保 留 。 


这 些许 可 证 的 特征 是 考虑 到 了 专利 和 商业 利用 等 情况 。 
14.5.6 ”开源 的 背景 


知道 了 开源 的 定义 和 历史 ， 还 不 能 说 就 理解 开源 了 。 最 重要 的 问题 是 
为 什么 要 开源 ， 或 者 为 什么 开源 能 和 得 通 ， 这 些 问 题 也 还 没有 得 到 到 
分 说 明 。 


与 1976 年 盖 次 提出 的 “专业 人 员 得 免费 工作 吗 * 的 疑问 相反 ， 有 很 多 人 
积极 参加 开源 软件 的 开发 工作 。 其 中 既 有 把 目 己 的 时 间 目 发 地 无 偿 页 
献 出 来 的 人 ， 也 有 把 开发 开源 软件 作为 职业 的 人 。 这 种 与 直觉 相反 的 
情况 是 如 何 发 生 的 呢 ? 


在 科学 领域 ， 共 至 知识 和 信息 本 来 是 非常 普通 的 事情 。 即 使 不 用 看 站 
在 巨人 的 肩膀 上 的 牛顿 的 例子 ， 把 知识 作为 论文 免费， 公开， 利用 
前 人 的 成 绩 进 行 新 的 研究 是 再 理所当然 不 过 的 了 。 


软件 ， 特 别 钙 商业 软件 ， 一 旦 作为 商品 来 经 宫 的 话 ， 束 容易 起 记 这 样 
一 点 ， 与 论文 的 内 容 一 样 ， 软 件 也 不 过 是 信息 的 一 种 ， 也 应 该 适用 同 
样 的 原则 。 科 学 家 致力 于 研究 ， 大 学 或 研究 机 构 对 科学 家 给 予 支 持 ， 

这 种 体制 对 软件 也 有 可 能 成 立 。 实 际 上 ， 大 学 或 研究 机 构 文 援 软件 开 
发 的 例子 相当 多 。 


但 是 ， 谈 到 近年 来 开源 的 普及 和 发 展 ， 计 算 机 的 普及 和 因特网 的 发 展 
则 功 不 可 没 。 过 去 如 果 要 想 开 发 高 质量 软件 的 话 ， 需 要 购买 价格 高 昂 
的 计算 机 ， 召 集 大 量 的 技术 人 员 。 现 在 一 般 家 庭 里 的 计算 机 都 完全 能 
够 开发 软件 ， 通 过 网 络 进行 合作 开发 的 事情 也 屡见不鲜 。 个 人 出 于 兴 
趣 而 编程 也 已 经 能 够 达到 相当 高 的 水 平 了 。 


天 于 目 由 软件 世界 ， 斯 托 曼 在 他 写 的 《GNTU 宣言 》 中 ， 对 未 来 做 出 了 
如 下 的 预言 。 


“从 长 远 的 观点 看 来 ， 程 序 员 成 为 目 由 程序 员 ， 是 走向 完美 世界 的 第 一 
步 ， 在 那样 一 个 世界 里 ， 谁 都 不 用 再 为 维持 生计 而 像 奴 素 一 样 劳 动 。 
人 们 每 星期 只 要 工作 10 个 小 时 ， 比 如 在 完成 制定 法 律 、 家 族 交 流 、 机 
俐 人 修理 或 小 行星 探测 等 必要 的 工作 之 后 ， 束 可 以 目 由 地 专注 于 编程 
这 一 充满 乐趣 的 活动 。 再 也 不 用 为 维持 生计 而 编程 了 。” 


人 类 还 没有 达到 不 用 为 维持 生计 而 编程 的 程度 ， 但 比 100 年 前 还 是 高 
裕 得 多 。 好 像 有 很 多 人 在 业余 时 间 里 沉浸 于 编程 的 乐趣 之 中 。 因 此 ， 
可 以 理解 的 是 ， 开 源 激发 了 优秀 程序 员 们 的 创造 力 ， 刺 激 了 他 们 对 知 
识 的 好 奇 心 ， 使 他 们 从 中 得 到 至 高 无 上 的 快乐 另外， 可 以 感觉 到 天 
心软 件 目 由 的 人 也 在 增加 。 


想 知道 软件 是 如 何 执行 的 ， 束 去 阅读 源 代 码 。 软 件 有 错误 的 时 候 ， 丈 
目 己 来 修改 。 如 采 觉 得 目 己 行动 受到 限制 的 话 ， 束 阅读 源 代码 ， 利 用 
编程 技术 来 排除 这 一 限制 。 这 些 都 是 程序 员 的 本 能 。 


软件 的 复杂 化 和 商品 化 也 是 开源 的 至 景 之 一 ， 不 容 忽视 。 软 件 所 黎 雷 
的 领域 越 来 越 广 ， 软 件 也 越 来 越 复杂 。 过 去 1 万 行 左 右 的 程序 吏 实 现 
了 的 操作 系统 ， 如 今 变 成 了 超过 600 万 行 的 巨大 软件 。 


14.5.7 ”企业 关注 开源 的 理由 


不 过 ， 人 们 钱包 里 的 钱 并 没有 发 生 什 么 明显 的 变化 ， 即 使 是 每 个 软件 
的 规模 变 得 越 来 越 大 ， 软 件 整体 的 投资 并 没有 增加 。 结 采 ， 软 件 开发 
的 预算 急剧 减少 ， 除 非 是 特别 大 的 软件 公司 ， 一 些小 公司 已 经 无 法 仅 
靠 目 己 来 开发 和 提供 人 们 所 需要 的 软件 。 


这 就 是 企业 关注 开源 的 理由 。 从 1998 年 以 来 ， 开 始 出 现 了 盔 利 企业 为 
目 己 的 利益 而 开发 开源 软件 的 事例 。 一 旦 认识 到 无 法 目 己 来 开发 所 有 
软件 之 后 ， 企 业 只 目 己 开发 最 具 况 争 力 的 小 部 分 核心 软件 ， 而 让 大 家 
共同 来 开发 其 他 软件 ， 结 果 对 大 家 都 有 好 处 ， 企 业 关 注 开源 正 古 这 种 
冷静 的 分 析 考 量 的 结果 。 


另外 ， 对 于 采用 这 一 战略 的 公司 而 言 ， 积 极 参与 开源 软件 开发 ， 拥 有 
开源 开发 人 员 ， 可 以 证 明 目 己 公司 的 技术 实力 ， 有 助 于 确立 品牌 。 我 
工作 的 网 络 通 讯 研究 所 即 是 这 样 一 家 企业 ， 此 外 ， 还 有 不 少 通过 这 一 
战略 而 取得 成 功 的 企业 。 


参与 开源 的 人 们 也 各 有 各 的 想法 。 有 因 经 营 考 虑 而 参加 的 企业 ， 有 为 
软件 自由 而 参加 的 程序 员 ， 有 因 上 级 命令 而 参加 的 公司 职员 ， 各 种 各 
样 ， 千 差 万 别 。 但 是 ， 开 源 有 可 能 为 个 人 和 全 人 类 珊 来 以 昼 ， 如 末 能 
继续 下 去 形成 民 性 循环 的 话 ， 那 真是 再 好 不 过 了 。 


14.5.8 ”Ruby 与 开源 


Ruby 从 一 开始 就 是 开源 软件 。Ruby 在 1995 年 初次 公开 的 时 候 ， 开 源 
这 个 单词 还 没有 道生， 也 许 应 该 称 为 自由 软件 。 


在 这 继续 开发 Ruby 的 16 年 中 ， 我 经 常会 被 问 到 “为 什么 把 Ruby 开源 
了 呢 ? ”。 好 像 是 在 说 ， 既 然 Ruby 被 评 为 优秀 软件 ， 如 果 商 品 化 的 
话 ， 我 即使 不 会 变 成 盖 次 那样 ， 也 会 变 得 相当 是 裕 的 。 


非常 抱歉 ， 有 违 大 家 的 期 望 ， 我 除了 把 Ruby 作为 目 由 许可 证 软件 公 
开 以 外 ， 没 有 考虑 过 其 他 的 选择 。 其 理由 之 一 就 古 ， 我 从 大 学 以 来 所 
0 几乎 全 是 由 以 GNU 软件 为 主 的 各 种 目 由 软件 构成 


我 所 使 用 的 编程 工具 ， 过 去 是 ， 现 在 了 也是， 几乎 都 是 以 Emacs 为 主 的 
目 。 还 有 ， 我 的 编程 知识 也 大 都 是 通过 阅读 目 由 软件 源 代 
而 学 到 的 。 


考虑 到 我 的 出 身 ， 除 了 服从 业务 命令 而 进行 的 开发 之 外 ， 把 目 己 开发 
的 软件 作为 目 由 软件 公开 ， 当 然 是 再 目 然 不 过 的 了 。 


进一步 而 言 ， 现 在 Ruby 被 评 为 优秀 语言 ， 也 是 因为 它 公 开 为 目 由 软 
件 ， 得 到 了 很 多 人 的 帮助 。16 年 间 ， 很 多 人 为 改进 Ruby 付出 了 巨大 
的 努力 。 虽 然 Ruby 是 我 开发 的 语言 ， 但 如 果 没 有 大 家 的 力量 的 话 ， 
Ruby 是 不 可 能 有 今天 的 。 


如 果 我 想 “Ruby 是 优秀 的 语言 ， 应 该 用 它 来 赚钱 ”>， 自 己 创 业 开 公司 的 
话 ， 八 人 现在 Ruby 已 经 消失 得 无 影 无 躁 了 。 实 际 上 ， 过 去 也 有 很 多 

企业 曾 挑 战 过 “语言 生意 ”， 但 几乎 没有 成 功 的 ， 编 程 语言 的 生意 束 是 
这 么 难 做 。 


男 一 方面 ， 因 为 我 没有 直接 选择 商业 之 路 ， 而 是 把 Ruby 作为 自由 软 
件 公 开 ， 现 在 自己 的 时 间 几 乎 100% 都 可 以 用 在 Ruby 上 ， 而 且 所 得 到 
0 。 即使 不 会 像 盖 次 那样 富有 ， 开 发 开源 软件 也 足以 
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14.5.9 选择 许可 证 的 方法 
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呢 ? 


许可 证 与 技术 无 天， 而 十 有 关 法 律 和 合同 的 工作 ， 这 不 十 技术 人 员 的 
工作 ， 而 是 属于 律师 的 工作 范围 。 对 于 软件 开发 人 员 来 说 ， 这 决 不 是 
一 件 令 人 感 兴 趣 的 工作 ， 有 人 甚至 会 想 : “ 哪 用 得 着 这 些 东西 呢 ? ” 


那么 为 什么 要 特意 准备 许可 证 昵 ? 其 主要 理由 是 要 表明 自己 的 主张 。 
合适 的 许可 证 可 以 明确 地 表明 开发 人 员 希 望 如 何 使 用 和 发 布 该 软件 ， 
这 样 用 户 可 以 安心 地 使 用 软件 。 


如 果 这 一 点 不 明了 的 话 ， 用 户 为 了 能 够 真正 安心 地 使 用 软件 ， 丈 会 直 
接 询 问 开 发 人 员 。 对 开发 人 员 来 讲 ， 如 果 从 世界 各 地 传 来 大 量 “ 这 样 的 
情况 也 可 以 使 用 吗 ” 的 疑问 ， 这 决 不 是 什么 令 人 高 兴 的 事 。 还 有 ， 人 们 
也 希望 通过 许可 证 来 避免 诉讼 等 法 律 问 题 。 因 此 ， 许 可 证 虽 是 件 玉 
事 ， 却 能 够 让 开发 人 员 专 注 于 软件 开发 。 因 为 这 一 点 ， 最 初 的 选择 也 
束 变 得 非常 重要 。 


我 能 给 出 的 站 要 建议 束 是 ， 绝 对 不 要 目 己 定义 新 的 许可 证 。16 年 前 ， 
在 开始 开发 Ruby 的 时 候 ， 如 果 能 明日 这 一 点 的 话 ， 我 的 人 生 束 会 快 
乐 许多 。 当 时 ， 我 想 提 供 一 个 明确 允许 再 利用 源 代码 的 许可 证 。 束 这 
样 ， 我 以 Perl 许可 证 为 基础 ， 明 确定 义 了 一 个 允许 源 代码 的 再 利用 ， 
不 对 输入 输出 数据 (Ruby 环境 下 的 Ruby 程序 ， 作 限制 的 许可 证 。 


定义 许可 证 跟 编 程序 也 有 类 似 之 处 。 在 考虑 人 允许 什么 禁止 什么 的 时 
候 ， 跟 考虑 算法 是 一 样 的 。 现 在 回想 起 来 ， 当 时 还 是 恒 高 兴 的 。 


但 是 ， 要 消除 这 个 “代码 ”中 的 错误 ， 那 比 程 序 可 要 难得 多 。 它 不 像 程 
序 那样 可 以 简单 地 “执行 ”， 不 能 马上 发 现 问题 ， 即 使 发 现 了 问题 ， 修 
改 起 来 也 绝 非 易 事 。 


例如 ， 假 设 目 己 定义 的 许可 证 所 包含 的 条 款 中 有 点 什么 问题 。 马 上 可 
以 想到 的 一 点 就 是 ， 因 为 与 GPL 没有 互 换 性 ， 所 以 不 能 与 GPL 软件 
链接 在 一 起 。 基 于 类 似 的 思想 而 定义 的 许可 证 ， 却 没有 互 换 性 ， 这 是 
一 件 多 么 令 人 伤心 的 事情 啊 ， 但 许可 证 就 是 这 样 一 个 现实 。 在 这 种 情 
况 下 ， 要 么 按照 字面 的 意思 放弃 与 GPL 软件 的 链接 〈 束 会 有 用 户 感 到 
不 方便 ) ， 要 么 就 来 修改 许可 证 。 


如 采 使 用 你 的 许可 证 的 软件 的 所 有 代码 都 完全 是 由 你 目 己 写 出 来 的 
人 


但 是 ， 如 果 其 中 包含 了 其 他 人 写 的 补丁 的 话 ， 软 件 束 不 再 是 你 一 个 人 
的 了 ， 在 法 律 上 写 补丁 的 人 是 共同 拥有 版 权 的 。 


严格 说 来 ， 当 然 不 能 随便 侵害 他 人 的 版 权 ， 所 以 从 理论 上 讲 ， 许 可 证 
的 修改 需要 得 到 所 有 共同 作者 同意 。 像 Ruby 这 样 经 过 多 年 开发 的 软 
件 ， 已 经 无 法 确认 到 确 有 多 少 人 拥有 相关 版 权 了 。 


像 FSF 软件 那样 ， 不 管 是 谁 ， 只 要 从 他 那里 接受 〈10 行 以 上 的 ) 代码 
贡献 ， 就 必须 签订 书面 的 版 权 转 让 合同 的 话 ， 束 不 太 容 易 发 生 版 权 问 
题 了 。 但 羡 ， 每 次 收 到 补丁 的 时 候 ， 都 要 进行 这 样 的 手续 是 件 非 常 麻 
烦 的 事 。 大 多 情况 下 ， 我 只 好 放弃 许可 证 的 修改 ， 或 者 经 过 巨大 努力 
之 后 也 无 法 取得 全 员 的 同意 天 修改 了 许可 证 ， 然 后 从 心 确 里 初 铸 没 有 
人 会 对 此 抱怨 。 


目 己 定 义 许可 证 的 话 ， 束 意味 着 有 好 儿 年 的 时 间 ， 你 都 要 亲 目 承担 这 
些 麻 烦 事 。 我 从 心 确 里 建议 你 不 要 定义 目 己 的 许可 证 。 


世界 上 存在 有 数量 众多 的 开源 许可 证 ， 从 中 选择 一 个 就 足够 了 。 而 且 
建议 选择 那些 著名 的 许可 证 。 


发 生 需 要 修改 许可 证 才能 解决 问题 的 ， 大 都 是 选择 了 不 怎么 出 名 的 许 
可 证 的 项 目 ， 这 是 众所周知 的 事实 。 著 名 的 许可 证 因为 得 到 广泛 的 使 
用 ， 基 本 上 没有 遗留 什么 大 问题 ， 即 使 有 什么 问题 ， 朋 友 们 大 多 也 安 
心 “不 出 名 的 许可 证 大 者 没有 能 够 充分 考虑 到 与 其 他 许可 证 组 合 的 情 
况 ， 让 人 不 安 。 


在 克 择 软件 许可 证 的 时 候 ， 首 先 要 考虑 是 否 布 望 版 权 保留 。 版 权 保 
gg 0 


FSF 作为 软件 目 由 的 拥护 者 ， 强 烈 推 行 版 权 保留 。 男 一 方面 ， 不 怎么 
在 乎 版 权 保留 的 开发 人 员 好 像 更 多 一 些 。 如 果 你 布 望 版 权 傈 留 的 话 ， 
几乎 整 只 能 克 择 GPL 。 


如 果 你 的 软件 是 作为 库 来 使 用 的 话 ， 那 么 LGPL 则 十 个 不 错 的 选择 。 
如 条 对 库 适 用 GPL 许可 证 的 话 ， 那 事实 上 整 只 能 为 GPL 软件 所 用 ， 
采用 限制 较为 宽松 的 LGPL 的 话 ， 有 可 能 使 你 的 软件 得 到 更 为 广泛 的 
使 用 。 但 是 ，LGPL 有 不 方便 、 难 于 理解 以 及 没有 得 到 充分 考察 等 缺 
护 ， 在 不 太 强 烈 布 望 版 权 保 留 的 时 候 ， 最 好 不 要 选择 它 。 


对 于 不 太 在 乎 版 权 保留 的 人 来 说 ， 可 以 选择 GPL 以 外 的 许可 证 。 这 里 
的 要 点 是 ， 该 软件 是 否 需 要 与 其 他 软件 进行 链接 。 如 果 预 想到 将 来 可 
能 以 某 种 方式 与 GPL 许可 证 的 软件 链接 在 一 起 的 话 ， 那 么 与 GPL 的 
互 换 性 就 变 得 很 重要 。 拥 有 插件 功能 的 软件 或 库 特别 要 注意 这 一 点 。 
作为 与 GPL 不 相 巴 厦 的 许可 证 ， 有 修正 BSD 许可 证 和 MIT 许可 证 


另 一 个 应 该 考虑 的 要 点 是 ， 与 相关 软件 和 许可 证 是 否 一 致 。 比 如 
Eclipse 插件 就 应 该 选择 Eclipse 许可 证 (即使 不 与 GPL 互 换 ) 。 另 外 ， 
PHP 关 联 软件 选择 与 PHP 一 致 的 许可 证 也 是 安全 的 。 用 Ruby 编 写 的 软 
人 
HTHFEF。 
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开源 是 为 了 软件 目 由 ， 在 目 由 软件 运动 中 诞生 的 。 开 源 这 个 词 是 进军 
商业 领域 的 市 场 营 销 用 语 。 公 开源 代码 好 像 会 破坏 商业 软件 ， 实 际 上 
有 许多 好 的 运用 方法 。 为 了 运用 得 好 ， 许 可 证 的 选择 就 非常 重要 。 


范 型 的 变化 


从 诞生 以 来 有 超过 15 年 了 ，Ruby 一 直 在 不 断 地 苗 壮 成 长 。 速 度 更 
快 ， 功 能 更 多 ， 使 用 更 方便 ， 代 码 更 稍 洛 ， 不 知道 Ruby 会 进化 到 
什么 程度 。 回 头 看 看 这 几 年 Ruby 的 变化 ， 引 人 注目 的 是 ， 它 越 来 
越 朝 支持 函数 式 编 程 风 格 的 方 辣 发 展 。 


以 Haskell 为 首 的 玉 数 式 编 程 语言 变 得 出 名 ， 人 们 能 实际 感觉 到 它 的 
便利 之 处 ， 这 是 这 种 变化 的 原因 之 一 ， 但 其 更 重要 的 原因 是 我 个 人 
对 函数 式 编 程 语 言 所 持 的 矛盾 印象 


像 本 章 已 经 说 明 的 那样 ， 函 数 式 编程 具有 非常 多 的 优点 。 静 态 声明 
式 的 编程 代码 容易 理解 ， 容 易 检查 出 错误 ， 类 型 检查 功能 也 有 效 。 


最 重要 的 是 ， 没 有 副作用 的 函数 式 编 程 与 将 来 会 越 来 越 重 要 的 并 行 
编程 的 配合 简直 是 天 衣 无 颖 。 仅 了 束 这 一 点 来 疯 ， 我 觉得 将 来 编程 的 
主流 很 有 可 能 是 函数 式 的 。 但 是 ， 用 函数 式 编 程 开 发 一 定 规模 以 上 
的 软件 时 ， 会 突然 变 得 特别 难 ， 这 也 十 事实 。 这 也 可 能 十 因 为 程序 
员 还 没有 习惯 画 数 式 风格 吧 。 与 结构 化 编程 和 从 中 发 展 而 来 的 面向 
对 象 编程 相 比 ， 我 怀疑 从 上 到 下 用 函数 式 风 格 开 发 一 定 规 模 的 软 
件 ， 可 能 不 符合 人 类 的 思考 风格 。 


这 一 怀疑 是 否 正确 我 们 还 不 知道 ， 束 表面 看 来 ， 杀 和 性 好 、 效 率 双 
高 的 Ruby 语言 借用 了 函数 式 语 言 的 筷 想 ， 如 琳 能 把 刹 的 范 数 式 编 
0 和 一 起 ， 那 整 再 好 不 过 


也 许 编 程 风 格 的 急剧 转变 蕊 上 束 近 在 眼前 了 。 


